Facebookが英語を経由せずに100個の言語を直接翻訳できる新しい機械翻訳システムを開発
世界中にユーザーを抱えるFacebookでは自動機械翻訳を使用することにより、プラットフォーム上で公開されているほぼ全てのコンテンツを、ユーザーが使っている言語に翻訳することが可能です。新たにFacebookは、中間言語として英語を経由することなく100個の言語を直接翻訳できる機械翻訳システム「M2M-100」を開発したと発表しました。
Introducing the First AI Model That Translates 100 Languages Without Relying on English - About Facebook
https://about.fb.com/news/2020/10/first-multilingual-machine-translation-model/
Facebook's new AI can translate languages directly into one another | Engadget
https://www.engadget.com/facebooks-ai-can-translate-languages-directly-into-one-another-150029679.html
Facebookはニュースフィードだけで1日当たり200億回もの翻訳を提供していますが、この翻訳システムは通常、中間言語として英語を用いています。たとえば中国語からフランス語に翻訳する場合、まずは中国語を英語に翻訳し、その英語をフランス語に翻訳することで中国語をフランス語にしているわけです。
この方法が使用されているのは、英語と他言語の翻訳データセットが膨大であるためですが、中間に英語を挟むことで翻訳の全体的な精度は低下するとされています。Facebook AIのAngela Fan氏は、世界中には英語以外の言語を話す地域がいくつもあるため、英語を使わない人々の需要に機械翻訳システムが応えることが重要な課題だと指摘。Facebookのプラットフォーム上では毎日数十億個もの投稿が行われていますが、それぞれの投稿に使われる言語は160個に及び、全体の3分の2以上は英語以外の言語で行われているとFan氏は述べています。
そこでFacebookは、中間言語として英語を使用することなく、2つの言語を直接翻訳することができる新しい機械翻訳システム「M2M-100」を開発しました。M2M-100は合計で100個もの言語セットから任意の方向に直接翻訳することができる、最初の多言語機械翻訳モデルであるとFacebookは主張しています。
M2M-100を開発するにあたり、Facebookは100言語の75億文からなる膨大なデータセットを構築しました。まずはウェブページのクロールを行うCommon Crawlを用いてテキストデータを収集し、続いてFastTextと呼ばれるテキスト分類システムを使用してテキストの言語を特定したそうです。
翻訳データは人間の翻訳者を使用して作成されることが多いものの、「英語とタミル語を話す翻訳者」を見つけるよりも、「フランス語とタミル語を話す翻訳者」を見つける方がはるかに困難だとFan氏は指摘します。英語以外の言語を直接翻訳するためのデータを手に入れるため、研究チームは「LASER(Language-Agnostic SEntence Representations)」という、多言語の文章を意味に基づいてマッピングするツールを利用したとのこと。
また、Facebookは言語の分類、地理、文化の類似性に基づいて、言語を14のグループに分類する戦略も導入したそうです。同じグループに属する言語はより頻繁にコミュニケーションを取る傾向があるため、より高品質の双方向翻訳データがあるとFacebookは述べています。
もちろん、全ての言語がインターネット上で利用可能な大量のテキストを有しているわけではないため、研究チームは「単一言語で書かれたデータ」に着目しました。Fan氏は中国語からフランス語への翻訳を例に挙げ、「私たちのゴールが中国語からフランス語への翻訳であるものの、何らかの理由で十分な精度のデータを得られない場合、私たちはこれを改善するためにフランス語の単一言語データを用います。そして、『フランス語から中国語への翻訳』という、システムの逆を訓練します。たとえば、Wikipediaからフランス語のデータを全て取得し、これを中国語に翻訳します」と述べています。
逆翻訳を行うことによって得られた新たなテキストをデータセットに追加することで、入力側と出力側の双方で利用可能なデータが増加するため、機械翻訳システムがより強力になるとのこと。
こうして開発されたM2M-100は、機械翻訳の精度を測定するBLEU(Bilingual Evaluation Understudy)スコアにおいて、英語を中間言語として使用する機械翻訳システムを10ポイントも上回っているとFacebookは述べています。
依然としてM2M-100が網羅できていない言語は膨大であり、最終的にこの世に存在する全ての言語を直接翻訳できるシステムの開発につながるかどうかは、記事作成時点では不明です。Fan氏は、機械翻訳システムの成功はAIが活用できるデータの量に依存すると指摘し、使用可能なデータが非常に少ない言語において追加の研究課題があると述べました。
・関連記事
Facebookが90言語以上の機械翻訳を加速させるためのツールキット「LASER」を公開中 - GIGAZINE
Facebookが機械翻訳の質を劇的に向上させるAI技術を開発 - GIGAZINE
めちゃくちゃ精度が高いと話題の機械翻訳「DeepL翻訳」に日本語の翻訳機能が登場したので実際に使ってみた - GIGAZINE
ディープラーニングで翻訳プログラムを0から作った人がその仕組みを複雑な数式ではなく図で解説するとこうなる - GIGAZINE
MicrosoftのAI翻訳は中→英ニュース翻訳を人間の翻訳者と同じ精度でこなせるレベルに到達 - GIGAZINE
・関連コンテンツ