Google翻訳は人間レベルの翻訳精度を目指して人工知能を活用


スマートフォンでもPCでもオフラインでも使え、100以上の言語に対応しているGoogleの翻訳サービス「Google翻訳」が、ちょうど10周年を迎えるタイミングでより自然な翻訳を可能にする人工知能(AI)を活用した「GNMT」システムを発表しました。

Research Blog: A Neural Network for Machine Translation, at Production Scale
https://research.googleblog.com/2016/09/a-neural-network-for-machine.html


Google's AI translation system is approaching human-level accuracy - The Verge
http://www.theverge.com/2016/9/27/13078138/google-translate-ai-machine-learning-gnmt


AI研究で複数の大手IT企業とのパートナーシップを結んだばかりのGoogleは、AIを駆使した翻訳システム「GNMT(Google Neural Machine Translation)」を発表しました。Google翻訳ではこれまでフレーズベースで機械翻訳するPBMTというシステムが採用されていましたが、このような単語やフレーズごとに機械的に文章を翻訳する方法ではなく、文章全体をひとつの翻訳単位として捉えることができるのがGNMTだそうです。

Googleの研究者によると、「GNMTの『文章全体をひとつの翻訳単位として捉える』アプローチの長所は、工学的設計の選択肢がPBMTよりも少なくて済むことです」とのこと。実際にGNMTを駆使した最初の翻訳では、既存のGoogle翻訳と遜色ない翻訳精度がみられたそうです。さらに、何度も翻訳を重ねることで、GNMTは優れた翻訳と素早い翻訳スピードの両立が可能になっている模様。Googleによると、GNMTを用いることでGoogle翻訳は翻訳ミスを55~85%も軽減できるようになるとのこと。

GoogleによるとGNMTは一部のケースでは人間レベルの翻訳が可能なレベルに達しているとのこと。以下のグラフは人間・GNMT・PBMTの3つによる翻訳を6段階評価して比較したもので、最も翻訳精度が高いのは人間による翻訳ですが、フランス語から英語に翻訳する場合や英語からスペイン語に翻訳する場合、人間とGNMTの間にそれほど大きな差は存在しないそうです。


以下のGIF画像は中国語の文章「知识就是力量(知識は力です)」をGNMTが英語に翻訳する過程を可視化したものです。まず最初に、GNMTのネットワークは中国語の単語をベクトル(1次元配列)のリストにエンコードします。個々のベクトルは「単語はここまで読まれた」ということを現わしています。そして翻訳する文章が全て読まれたら、デコーダーが英語の文章を1単語ずつ生成し始めます。生成される英単語と元の中国語の単語をつなぐように伸びる青色の線は、「デコーダーが翻訳単語を生成する際にどれくらい注意したか」を示しているとのこと。


以下の表は、いちばん左の中国語の文章をPBMT、GNMT、人間の3パターンで実際に翻訳した結果の比較。PBMTに比べるとGNMTのほうがより自然な文章に近づいていることが感じられるはず。


GoogleはGNMTの精度を高めるために、中国語から英語への翻訳限定でGoogle翻訳にGNMTを実装済み。中国語から英語への翻訳は、ウェブ版とモバイル版を合わせると1日当たり1800万件程度あるそうで、これらは全てGNMTが処理しているそうです。また、今後数か月以内に他言語での翻訳時にもGNMTが使用される予定とのこと。

なお、GoogleによるGNMTの研究に関する詳細は(PDF)論文に記されています。

・関連記事
Google翻訳の対応言語が100カ国を突破、オンライン人口の99パーセントをカバーに - GIGAZINE

Google翻訳が「ロシア」を指輪物語の敵国「モルドール」と翻訳してしまう事態が発生 - GIGAZINE

「Google翻訳」がスマホをかざすだけで文字を自動認識して翻訳する仕組みとは? - GIGAZINE

Google翻訳アプリ新機能「視覚翻訳」「音声リアルタイム翻訳」を使ってみた - GIGAZINE

Google翻訳などの多言語翻訳が可能な「機械翻訳ツール」の仕組みは一体どのようになっているのか? - GIGAZINE

話しかけるだけで日本語を多言語に音声翻訳できる小型の翻訳デバイス「ili(イリー)」 - GIGAZINE

132

in メモ, Posted by logu_ii