HOME > バックナンバー > ジャストシステムの日本語テクノロジー > 黎明期

ジャストシステムの日本語テクノロジー

黎明期

日本最初の国語普通語辞書『言海』を編者の大槻文彦から贈呈された福沢諭吉は、「寄席の下足札が五十音でいけますか」と、その五十音配列を暗に批判したという。それに対する大槻の慨嘆。「小学でもハヤ二十年来五十音を教へて居ることに思ひ至らなかったのでのあらうか」 [1]
日本語普通語辞書を五十音配列にしたのは、当然のことながら『言海』を嚆矢とする。しかし、今では、誰もが疑うことのない「国語辞典は五十音順」という仕組み=フレームワークが絶対的ではなかった時代があったことに思いを馳せる人は少ない。

この伝でいけば、今では多くの人が疑うことなく漢字仮名交じり文の入力方法として用いている「べた書き文の仮名漢字変換システム」が、当初から絶対的であったわけではない。

ATOKの歴史は、1982年10月にデータショウで発表されたCP/M用日本語処理システム「KTIS」に遡る。市場に投入された製品としては、1983年10月に発売された、NECのPC-100にバンドルされた「JS-WORD」の仮名漢字変換部分を嚆矢とする。1979年に設立されたジャストシステムとしての最初の一般民生用製品である。

ATOKの歴史を振り返る前に、その前史としての1979年から1983年の前後を、日本語情報処理技術、仮名漢字変換技術という観点から概観してみよう。

1978年01月:
「情報交換用漢字符号系 JIS C 6226-1978」
(現在の「7ビット及び8ビットの2バイト情報交換用符号化漢字集合 JIS X 0208:1997」の前身)発行
1978年06月:
牧野寛・木澤誠「べた書き文の分かち書きと仮名漢字変換」(情報処理学会論文誌)
1978年12月:
森健一氏らの開発による日本最初の日本語ワードプロセッサーJW-10発売
1979年03月:
NECの8ビットパソコンPC-8001発表
1979年10月:
森健一・河田勉「かな漢字変換」(情報処理 解説)
1982年10月:
NECの16ビットパソコン PC-9801発売
1983年09月:
「情報交換用漢字符号系 JJIS X 0208-1983」(JIS C 6226-1978の改正版)

上述の森・河田が言及しているように1967年に栗原俊彦らによって始められ、主として研究室において、また、特定分野用として連綿として研究開発が続けられてきた仮名漢字変換研究が、この時期に、研究の進展、実装環境双方が整い、一気に大学の研究室や一部の特殊な分野向けの専用システムから、民生分野への適応が始まったことが見て取れる。ジャストシステムは、このような時代の空気の中で、創業された。

創業者の一人である浮川初子の話によると、パーソナルコンピューター用の仮名漢字変換システム、ワードプロセッサーを手がける前のジャストシステムは、 JIS C 6226-1978 に準拠した漢字ディスプレー、漢字プリンターを用いて、オフコン用の専用システムで漢字を表示、印字するための簡単な入出力システムを作っていたという。[2]
こうした背景があった上で、16ビットのCPUと汎用的なOS(MS-DOS)の登場とほぼ同時に、同社の最初の仮名漢字変換システム「KTIS」が、市場に投入されている。

以後、年表にもあるように、1989年のATOK7 まで、毎年のようにヴァージョンアップが繰り返され、その仮名漢字変換機能は、進化発展していく。そして、この年表だけからも、仮名漢字変換システムの技術的、市場的発展にとって重要な、いくつかのポイントを読みとることが可能である。

最初に指摘すべきポイントは、仮名漢字変換のプロセスの最初の段階である文節区切り(形態素解析)のアルゴリズムの進展である。

1983年:
KTIS 先読み単語・熟語変換
1984年:
KTIS2 文節かな漢字変換
1985年:
ATOK3 連文節かな漢字変換
1986年:
ATOK5 自動変換、複合連文節変換、複合単文節変換、一括変換

特に、ATOK5 においては、文節の区切り位置を推論するためのアルゴリズムとして、二文節最長一致法を採用している。

二文節最長一致法は、先に挙げた牧野・木澤の論文からも見て取れるように、1979年時点で、すでにべた書き文を文節ごとに区切っていく方法としては、非常に有効であることが示されていた。しかし、一方で、牧野の「カナ漢字変換」[3]では、べた書き文を自動的に文節に区切って入力する方式だけではなく、単語分かち書き、自立語・付属語分かち書き、文節分かち書き、漢字指定式などの方法が列挙されている。ATOK5 において、二文節最長一致法が採用された1986年という時代においては、この方法が、仮名漢字変換方式としては学界における一定の評価を獲得しつつあったと同時に、まだまだ、他の入力方法も検討対象となっていたことが見て取れる。

ジャストシステムの開発担当者の間では、かなり早い段階から二文節最長一致法が注目されてはいたが、CPUのパワーや、メモリー、フロッピーディスクの辞書容量などの制約で、ATOK5 以前のシステムに採用することを見合わせていた。

その時点での市販ハードウエアを性能限界ぎりぎりのところで(場合によっては、若干限界を超えるところで)フルに利用して、市販ソフトウエア製品に実装していくというジャストシステムの開発手法は、ハードウエアの長足の進歩、価格低下を考慮に入れると、結果的には、ソフトウエア製品の市場競争力を高め、市場生命を長くする効果が大きかった。1989年のEMS(拡張メモリー)の採用や1993年のハードディスクを前提とした変換辞書の採用なども、この流れに沿ったものであり、一時的には、ハードウエア市場そのものの拡大にも貢献した。

もう一つのポイントとして、最初期から汎用的なOS環境の上で製品を開発していたことを挙げることが出来よう。8ビット時代のプロトタイプ製品である「KTIS」からCP/Mを用い、最初の市販製品がMS-DOS環境の上で稼働していたことが、その後のATOKの市場における競争力を高める上で、非常に役立ったと考えられる。

1985年のFEP(Front-End Processor)化も、この流れの中で重要な転機である。MS-DOS上でさまざまなアプリケーションから自由に呼び出して利用することが出来る FEPという構造を取ることにより、使い慣れた仮名漢字変換システムをさまざまなアプリケーションにおいて共通に利用できる環境が実現したのである。このことを逆の面から捉えると、仮名漢字変換システムの進展に伴い、仮名漢字変換システム自体が、アプリケーションとは切り離されて、ユーザーインターフェースの善し悪しも含めて、独立に評価される状況となってきた、とも言うことが出来よう。

ジャストシステムは、1987年には、他社のアプリケーションからもATOKをコントロール可能とするために、ATOKのAPI(Application Program Interface)を公開している。プロセスの独立性を高め、汎用的なOSに対応することにより、ATOKは、一般ユーザーの日本語入力インターフェースを確立することに成功した。べた書き文からの仮名漢字変換をアプリケーションとは独立したプロセスとして実行する、という現在の仮名漢字変換システムのフレームワークは、おおむねこの時期までに形作られたと考えられる。

ちなみに、この時期は、ATOKのみならず、多くの仮名漢字変換システムが市場での覇を競っていた。参考までに、「電脳辞書の国語学」(箭内敏夫/平成6年)に挙げられている調査対象仮名漢字変換システムを列挙する。

ACE((株)大塚商会)、AJIP((株)エクセル)、ASK((株)アクセス)、ATOK((株)ジャストシステム)、DANGO((株)スズキ教育ソフト)、DFJ((株)デジタルファーム)、E1(イースト(株))、EGBridge((株)エルゴソフト)、FIXER(シティソフト(株))、 JJ((株)リードレックス)、Katana((株)サムシンググッド)、松茸((株)管理工学研究所)、NECAI(日本電気(株))、 OMAC((株)モーリン)、VJE(株式会社バックス)、WAVE((株)クレオ)、WPFEP(エルゴソフト・ワードパーフェクト)、WX(エー・アイ・ソフト(株))[4]

プロセスの独立性が高まり、汎用的なOSに対応することで、一時的に多様な仮名漢字変換システムのある種の繚乱期が形成されていたことが見て取れよう。

この後、Microsoft Windowsの普及・寡占化とOSに仮名漢字変換システム(入力支援プロセスとしてのInput Method)が標準で組み込まれるようになることにより、この繚乱期はある種徒花的な状況として、時代の背景に消えていくことになる。そして、仮名漢字変換システムの開発の焦点は、同一の枠組みの中で、どのようにして変換精度を上げていくか、ユーザーにとってストレスのない処理を行うか、といった段階に入っていく。

では、精度の高い仮名漢字変換とは、ストレスの少ない仮名漢字変換とは、どういったものなのか。議論の焦点は、単なるエンジニアリングだけの問題ではなく、ユーザーの日本語観、言語能力といった問題に移っていくこととなる

TOPへ戻る


Update:2009.07.17