メモ

逆翻訳を利用してAIをバイリンガルにする新しい翻訳技術が開発中

by PDPics

人工知能(AI)は10年内にもアマチュア翻訳家を超えるレベルの翻訳を行うのではないかと見られています。しかし、現段階で、ニューラルネットワークに翻訳を学ばせるには何百万もの文章を翻訳した学習データが必要です。そんな中、対訳文書なしでニューラルネットワークに翻訳を学ばせることができる新たな技術が発表されました。

[1711.00043] Unsupervised Machine Translation Using Monolingual Corpora Only
https://arxiv.org/abs/1711.00043

[1710.11041] Unsupervised Neural Machine Translation
https://arxiv.org/abs/1710.11041

Artificial intelligence goes bilingual—without a dictionary | Science | AAAS
http://www.sciencemag.org/news/2017/11/artificial-intelligence-goes-bilingual-without-dictionary

既存のAI翻訳においてコンピューターが推測し、正しい答えを受け取り、プロセスを適宜調整できるのは、データとなる文書が豊富に存在する時です。そのため、英語やフランス語など文書がたくさん存在する言語については翻訳はうまくいきますが、マイナーな言語や対訳文書があまり存在しない言語については正確な翻訳が難しくなります。

これまでの機械学習は上記のように、最初に人間がAIに「教える」作業が必要でしたが、新たに発表された方法では別のアプローチが取られています。この技術では人間がAIに対して「あなたの推測は正しい」と教えることなく、AIは独自の辞書を作りあげます。「『テーブル』と『イス』という単語はしばしば一緒に使われる」など、多くの言語には類似点が存在するため、このような共起性をもとにマッピングを行っていくことで辞書作りが可能になるとのこと。その後、複数の地図を重ね合わせていくことで、翻訳のための辞書ができあがります。

by Mikhail Pavstyuk

上記のような技術についての研究は、新たに2つ発表されました。1つはスペイン・バスク大学のコンピューター科学者であるMikel Artetxe氏らによるもの、もう1つはFacebookのコンピューター科学者であるGuillaume Lample氏らによるものです。

2つの研究は、いずれも逆翻訳とノイズ除去を使用した似たような方法になっています。逆翻訳とは、一度別の言語に大まかに翻訳した文章を元の言語に再翻訳すること。このとき、開発されたニューラルネットワークは逆翻訳後の文書と最初の文書が一致しなかった場合に「調整」されるので、次に同じ文書を翻訳した時は2つの文書が近づくことになります。

ノイズ除去は逆翻訳と似たようなものですが、再翻訳する時に単語を除去したり再編成を行うことで元の文章を再現しようとします。上記のような逆翻訳とノイズ除去を行うことで、ニューラルネットワークは文章構造のより深いところまでを学べる仕組みです。いずれの研究チームが開発したシステムも1つの言語をエンコードし、別の言語に変える前に一度抽象的な表現にするという仕組みを取りますが、Facebookの研究チームの中間言語はより抽象的であるというシステムの違いが存在します。両研究チームは、相手の研究論文を読み、自分たちの開発した技術をさらに開発している最中だそうです。

by Alexa Mazzarello

2つの研究によって開発された技術の英語→フランス語への翻訳精度は、記事作成時点ではGoogle翻訳ほど高くないとのことですが、トレーニングに一部対訳文書を盛り込むことで、簡単に精度を上げることができるとされています。また、この技術は対訳文書の少ない言語ではなく、対訳文書の豊富な英語などについても、新しいスラングや医療の専門用語の翻訳において役立つとみられています。

・関連記事
「独自の言語使用法に行き着いたAI」は人類を危機にさらすものなのか? - GIGAZINE

日本語を英語に&英語を日本語にリアルタイム翻訳して会話できるGoogleのワイヤレスイヤホン「Pixel Buds」 - GIGAZINE

Google翻訳のAIは独自の「中間言語」を習得して「学習してない言語間の翻訳」すら可能な段階に突入 - GIGAZINE

人工知能はいつどの分野で人間を追い抜かしていくのか? - GIGAZINE

人工知能やロボットなどで代替可能な職業100&代替されない可能性が高い職業100まとめリスト - GIGAZINE

in メモ, Posted by logq_fa