 |
  |
 |
 |
|
 |
 |
 |
 |
 |
漢字・日本語処理技術の発展:仮名漢字変換技術 / Kana-Kanji transfer technology
小林龍生 / KOBAYASHI,Tatsuo
ジャストシステムデジタル文化研究所
JUSTSYSTEM Digital Culture Research Center |
|
| |
|
|
 |
□黎明期---1 |
|
 |
|
|
 |
日本最初の国語普通語辞書『言海』を編者の大槻文彦から贈呈された福沢諭吉は、「寄席の下足札が五十音でいけますか」と、その五十音配列を暗に批判したという。それに対する大槻の慨嘆。「小学でもハヤ二十年来五十音を教へて居ることに思ひ至らなかったのでのあらうか」[1]
日本語普通語辞書を五十音配列にしたのは、当然のことながら『言海』を嚆矢とする。しかし、今では、誰もが疑うことのない「国語辞典は五十音順」という仕組み=フレームワークが絶対的ではなかった時代があったことに思いを馳せる人は少ない。
この伝でいけば、今では多くの人が疑うことなく漢字仮名交じり文の入力方法として用いている「べた書き文の仮名漢字変換システム」が、当初から絶対的であったわけではない。
ATOKの歴史は、1982年10月にデータショウで発表されたCP/M用日本語処理システム「KTIS」に遡る。市場に投入された製品としては、1983年10月に発売された、NECのPC-100にバンドルされた「JS-WORD」の仮名漢字変換部分を嚆矢とする。1979年に設立されたジャストシステムとしての最初の一般民生用製品である。
ATOKの歴史を振り返る前に、その前史としての1979年から1983年の前後を、日本語情報処理技術、仮名漢字変換技術という観点から概観してみよう。
1978年01月 :「情報交換用漢字符号系 JIS C 6226-1978」
(現在の「7ビット及び8ビットの2バイト情報交換用符号化漢字集合 JIS X 0208:1997」の前身)発行
1978年06月:牧野寛・木澤誠「べた書き文の分かち書きと仮名漢字変換」(情報処理学会論文誌)
1978年12月:森健一氏らの開発による日本最初の日本語ワードプロセッサーJW-10発売
1979年03月:NECの8ビットパソコンPC-8001発表
1979年10月: 森健一・河田勉「かな漢字変換」(情報処理 解説)
1982年10月:NECの16ビットパソコン PC-9801発売
1983年09月 :「情報交換用漢字符号系 JJIS X 0208-1983」(JIS C 6226-1978の改正版)
上述の森・河田が言及しているように1967年に栗原俊彦らによって始められ、主として研究室において、また、特定分野用として連綿として研究開発が続けられてきた仮名漢字変換研究が、この時期に、研究の進展、実装環境双方が整い、一気に大学の研究室や一部の特殊な分野向けの専用システムから、民生分野への適応が始まったことが見て取れる。
ジャストシステムは、このような時代の空気の中で、創業された。
創業者の一人である浮川初子の話によると、パーソナルコンピューター用の仮名漢字変換システム、ワードプロセッサーを手がける前のジャストシステムは、JIS C 6226-1978に準拠した漢字ディスプレー、漢字プリンターを用いて、オフコン用の専用システムで漢字を表示、印字するための簡単な入出力システムを作っていたという。[2]
こうした背景があった上で、16ビットのCPUと汎用的なOS(MS-DOS)の登場とほぼ同時に、同社の最初の仮名漢字変換システム「KTIS」が、市場に投入されている。
以後、年表にもあるように、1989年のATOK7まで、毎年のようにヴァージョンアップが繰り返され、その仮名漢字変換機能は、進化発展していく。
そして、この年表だけからも、仮名漢字変換システムの技術的、市場的発展にとって重要な、いくつかのポイントを読みとることが可能である。
最初に指摘すべきポイントは、仮名漢字変換のプロセスの最初の段階である文節区切り(形態素解析)のアルゴリズムの進展である。
1983年:KTIS先読み単語・熟語変換
1984年:KTIS2文節かな漢字変換
1985年:ATOK3連文節かな漢字変換
1986年:ATOK5自動変換、複合連文節変換、複合単文節変換、一括変換
特に、ATOK5においては、文節の区切り位置を推論するためのアルゴリズムとして、二文節最長一致法を採用している。
二文節最長一致法は、先に挙げた牧野・木澤の論文からも見て取れるように、1979年時点で、すでにべた書き文を文節ごとに区切っていく方法としては、非常に有効であることが示されていた。しかし、一方で、牧野の「カナ漢字変換」[3]では、べた書き文を自動的に文節に区切って入力する方式だけではなく、単語分かち書き、自立語・付属語分かち書き、文節分かち書き、漢字指定式などの方法が列挙されている。ATOK5において、二文節最長一致法が採用された1986年という時代においては、この方法が、仮名漢字変換方式としては学界における一定の評価を獲得しつつあったと同時に、まだまだ、他の入力方法も検討対象となっていたことが見て取れる。
ジャストシステムの開発担当者の間では、かなり早い段階から二文節最長一致法が注目されてはいたが、CPUのパワーや、メモリー、フロッピーディスクの辞書容量などの制約で、ATOK5以前のシステムに採用することを見合わせていた。
その時点での市販ハードウエアを性能限界ぎりぎりのところで(場合によっては、若干限界を超えるところで)フルに利用して、市販ソフトウエア製品に実装していくというジャストシステムの開発手法は、ハードウエアの長足の進歩、価格低下を考慮に入れると、結果的には、ソフトウエア製品の市場競争力を高め、市場生命を長くする効果が大きかった。1989年のEMS(拡張メモリー)の採用や1993年のハードディスクを前提とした変換辞書の採用なども、この流れに沿ったものであり、一時的には、ハードウエア市場そのものの拡大にも貢献した。
>黎明期---2へ |
|
|
 |
|
|
| |
|
|
 |
|
 |
| |
|
|
 |
|
|
| |
▲ジャストシステムの日本語テクノロジー |
|
 |
▲このページのトップへ |
 |
 |
 |
 |
|