JUSTSYSTEMS.

ATOK.com

連載 ATOKの“かしこさ”の秘訣とは?

第3回:ATOKの変換精度の鍵を握る!「辞書開発」にインタビュー

共通技術開発部辞書グループ
青木昌子

ATOK辞書グループをとりまとめるチームリーダー。

最初に、ATOKを製品化する上で、辞書グループはどのような部分を担っているのか教えてください。
青木:ATOKは、ひらがなを入力して変換すると単語の候補が表示されます。この時に表示される変換候補のデータが「ATOK変換辞書」です。入力した文章に対して、その人が欲しい適切な候補を表示させる。そう言ってしまうととても簡単に聞こえるのですが、そこがやはり日本語入力の肝になりますね。よりかしこい日本語変換のためには、その「ATOK辞書」の精度を上げていく必要があります。ATOKでは、その辞書を作成する専任のチームを置いていて、辞書の最適化を行っていまして、その作業をしているのが私たちの辞書グループになります。
「ATOK辞書」を作るには、具体的にどのようなことをするのですか?
青木:大きく作業フローをお話すると、まずどの単語を登録するかを決め、その単語の調査を行います。誤った表記など出すわけにはいきませんから。そして、その登録する単語に必要な情報を付与します。かしこい変換ができるようにするためには、ただ単に単語を登録するわけではなく、一つの単語に、品詞や語順など変換に必要な様々な情報を追加する必要があるんです。
その後は、その辞書データを実際にATOKに組み込んで検証し、その検証結果を基に、辞書情報の修正を行い、再度検証を行う。これを、ATOKのマスターアップまで繰り返して、ひたすら辞書の精度を高めていく、ということになります。

共通技術開発部辞書グループ
林美恵子

ATOK辞書や文章校正支援ツール用辞書など、入社以来辞書関連の業務に携わる。

ひとつの単語を辞書に登録するのも、とても大変そうですね。登録する単語を調査する、ということでしたが、具体的にはどのようなことをするんですか?
:例えば、単語の送り仮名をどう表記するかを決める際には、基本的には「内閣告示」の「送り仮名の付け方」にならいます。ただ、それだけではなく、各種の辞典、様々なジャンルの文献などでもどう表記されているのかを調べます。内閣告示に従うと、例えば「やきにく」は「焼き肉」のように、「き」を送る表記が本則になります。ですが、「き」をぬいた「焼肉」の表記も一般的によく使われていますよね。実際にはそちらを使用しているというユーザーの方も多くいらっしゃいますので、その場合、利便性を考えて両方の候補を表示するようにしているんです。

青木:辞書を作成する際に必要となるのは、「規範性」と「利便性」のバランスですね。ATOKは、やはり誤りのない日本語で信頼をいただいているので、「正確性」には細心の注意を払います。ATOKで実際に入力してみて、ことばとしての正確さを調べるという方も多いですから。

:ことばはどんどん変化しますし、新しいことばもどんどん生まれてますから、長年やっていても、まだ迷うことも多いんです。社内でどうしても判断に迷うものは、ATOK監修委員会の先生方にご意見を伺います。
ATOKのかしこさを保つには、やはり手がかかっているのですね。単語に必要な情報を付与する、というのは、これはどういうことですか?
:品詞や語順といった基本的な情報のほかに、例えば、同音語を適切に書き分けるための情報を付与します。「人が泣く」と「動物が鳴く」では、同じ「なく」の読みに対して違う漢字を使います。ATOKの辞書に「犬」や「猫」などを登録する際には、「動物」という情報も付与しているので「犬が鳴く」と変換できます。このように、同音語の訳し分けに必要な情報を付加することによって、その後に続く入力では、より最適な候補が上位に表示されるようになります。
名詞の場合には、変換候補の表示する順序はどのように決まるのですか?
青木:基本的に、一般語と固有名詞では、一般語を優先するんですが、単語によっては、固有名詞をよく使う場合もありますよね。なので、実際はどのように使用されているか実例をふまえて、単語ごとに表示順を調整していきます。

:時代に合わせて表示順を変化させることもありますよ。以前は、「けいたい」で変換すると「形態」が最初に出ていましたが、携帯電話が普及してからは「携帯」が表示されるようになっています。
使いやすいATOKであるためには、時代に合わせて変化していくことが必要なんですね。では、ATOK 2012ではどう変わったのですか?
青木:前のバージョンと比べて、約1万5千語を追加しています。最新のトレンド語だけでなく、基本的な一般語も毎年拡充していますね。

:毎年、年間の計画を立てる際には、そのバージョンでどの分野の語彙を拡充するのかを決定します。ユーザーの方からの要望やチーム内の検討履歴をふまえながら強化する部分を決めたり、時代の流れに合わせた拡充を行ったりします。数年計画で語彙のベースアップを図ることもありますよ。
まだそんなに追加する単語があるんですね!その辞書データの収集は、どのように行われるのですか?
青木:規範としている文献、大辞典類、インターネットの記事などから収集します。今はインターネットが普及したので、収集や調査も本当に楽になりました(笑)。昔はネットだけでは情報が乏しかったので、どうしても文献に頼らざるを得ず、工数も今よりずっとかかっていたのですが、今はネットで簡単に検索ができますから。

:ATOK12で観光地名の拡充を行いましたが、当時は、観光地のパンレフットやガイドブックをたくさん集めてデータを収集しました。ATOK 2012でも、話題の分野として、ご当地グルメや地方名産の郷土料理、伝統工芸品などを拡充しましたが、このときは、地域の観光協会のwebページを参照したり、都道府県のサイトなど信頼性の高いサイトで確認を行ったりしました。
でも、記載されている表記が揺れている単語がいくつかあって。そういうものは、直接お問い合わせして正確な表記を確認しました。やはりATOKで表示されるものを基準としてくださる方も多いので、裏付けは欠かせません。

青木:調査で読みと表記が決定したら、最初に説明したように、品詞や語順、同音語の訳し分けなどの情報を付加していきます。統計処理だけに頼らず、整合性や網羅性を考慮しながら作業をしています。

:特に単語を収集している時には、仕事以外の場面でも、テレビを見るとき、雑誌を見るとき、街を歩いていて目に入る広告など、出てくる単語がすべて気になりますよ(笑)。常に言語については、アンテナを張るようにしていますし。

:番組のテロップで送り仮名の間違いに気づいたり、会話をしていて「それ誤用じゃない?」と思ったりすることもありますね(笑)。

ことばを集めるというのも大変なんですね。せっかく収集した単語を収録しないことはあるんですか?
青木:もちろん、ありますよ。ATOKでは、大きく「トレンド語」と「一般語」と分類しているのですが、辞書チームにはそれぞれの担当者がいます。複数の担当者ですりあわせながら、単語の登録を決めていきます。どうしても迷うときには、やはりATOK監修委員に相談に乗っていただきます。

:特に「トレンド語」については鮮度が大事です。今は旬のことばでも、製品発売の時期には使われないだろうと思われるようなものは見送ってきました。
ですが、ATOK 2012からは「ATOKキーワードExpress」を始めます。これは、今の新語をタイムリーにユーザーさんのATOKに届けるデータ配信サービスです。これで、旬のキーワードを即時に提供できるようになるんです。
ATOKはパソコンだけでなく、携帯電話やスマートフォンなど、様々なプラットフォームに対応していますが、プラットフォームによって辞書は変わるのですか?
:パソコンのATOKには「話し言葉優先」モードがありますが、携帯電話やスマートフォンではこのモードがデフォルトの状態になっています。携帯は、カジュアルな文章を入力するケースが多いですからね。そのシチュエーションでスムーズな変換ができるように、若者語やブランド名、トレンド語などが優先して変換されます。携帯電話で動作するATOK用の辞書を提供するにあたっては、多くの雑誌からも情報を集めましたね。
ATOK辞書の品質を高めるためには、どのような工夫をされていますか?
青木:ATOKは、基本的に特定ユーザーをターゲットにするのではなく、年齢や性別、ビジネスやパーソナルの用途を問わず、幅広く利用してもらうことを目指しています。そのため、辞書の検証では、新聞、ビジネス文書、ブログ、自然科学や法律経済など、硬軟取り混ぜて大量の文章を変換して、チェックするようにしています。このチェックのために、独自開発のツールも用意しました。
これまでお話を聞いていて、辞書開発は経験やノウハウが重要なお仕事のように感じましたが、辞書開発の感覚はどのように身につけられたのですか?
青木:ATOK辞書の登録方針は、時を経て担当者が変わっても代々受け継がれています。例えば、動植物の単語を登録するには、この情報を付加するなど、細部にわたって方針があります。まずは、それを覚え込むことですかね。

:ATOK8の開発過程でATOK監修委員会が発足しましたが、辞書チームに配属されると、まずこれまでのATOK監修委員会の会議録を読むことから始まるんです。規範性の考慮などでは、監修委員会の方針が受け継がれているんですね。会議の中で、委員会の先生方がどんな考えに基づいて判断をしているのか、ATOK辞書を作る上での考え方の基礎を学ぶんです。何冊ものリングファイルを熟読することになるんですよ。

青木:もう何年も経験を積んだ今でも、判断に迷うことがあるんです。そういう場合には、ATOK監修委員にも相談に乗っていただいています。
辞書データを作成する際には、どのようなことに気をつけられていますか?
青木:この単語は変換できるのに、この単語はできないといったバランスを欠くことがないように、気をつけています。ある単語と同じレベルの同意語や類義語、反意語、そこから派生する周辺の語彙についても整合性をとりながら登録しています。けれど、それではきりがないので、実際の落としどころは実用性ですね。あまり使わない単語は、関連する語であっても登録されないこともあります。単語の有無はユーザーの方の目にいちばん触れる部分でもありますので、気にしながら作っているところです。

:先ほども言いましたが、ATOKで出てくる変換は正しいものと受け止められるので、正確な辞書であるように気を付けています。


ATOK辞書チームの打ち合わせ風景。辞書の内容について議論中です。

これまでに大変だったことや、印象に残っていることはありますか?
青木:毎年、校正支援系の新機能やデータ拡充で悩みますね。判断の基準に正しいか誤りかだけではなく、慣用的に使われているかどうかも見極めることが必要になるためです。例えば、「足元をすくわれる」は誤りで、正しくは「足をすくわれる」です。けれど、一般にはすでに「足元をすくわれる」も広く使われています。そのため、今回は校正支援による指摘を見送ることにしました。こうした苦労がある一方、ユーザーの方からATOKは使いやすくなった、前より賢くなったと言われることがあります。そのときにはうれしいですね。

:ATOK14で初搭載となったトレンド辞書の立ち上げ時、タレントさんの名前や商品名など固有名詞を多数登録したのは大変でした。従来の表記基準が適用できないものがたくさんあって、辞書への登録方針を決めるのに難航しました。必ずしも読みと表記が一致しない場合もあって、たとえば「もーむす」から「モー娘。」に変換できるようにしたのですが、これはとても好評でした。

青木:読みと表記が一致しない例には、企業名の正式表記もあります。例えば、音で聞くと「キャノン」や「シャチハタ」ですが、企業名では「キヤノン」や「シヤチハタ」となります。ATOKは、こうしたちょっとした思い違いもフォローしてくれます。
最後に、辞書開発において今後目指していることを教えてください。
青木:いつでもどこでも、誰にでも寄り添えるATOKでありたいと考えています。今後は、専門用語辞書なども拡充させながら、あらゆる用途のお客様に合わせてATOKを進化させていきたいですね。

PAGE TOP

Update:2012.01.20