ソフトウェア

Facebookが90言語以上の機械翻訳を加速させるためのツールキット「LASER」を公開中

by Dmitry Ratushny

多言語における自然言語処理(NLP)による翻訳を加速するため、Facebookが「LASER(Language-Agnostic SEntence Representations)」と呼ばれるツールキットをオープンソース化し、GitHubで公開しました。LASERは90言語以上、28字母に対応しています。

LASER natural language processing toolkit - Facebook Code
https://code.fb.com/ai-research/laser-multilingual-sentence-embeddings/

100言語以上の多言語テストセットと共にFacebookがLASERを公開しているのは以下のページ。

GitHub - facebookresearch/LASER: Language-Agnostic SEntence Representations
https://github.com/facebookresearch/LASER

LASERは1言語から多言語に翻訳するNLPモデルにおける「ゼロショット翻訳」を可能にするもの。ゼロショット翻訳は2016年11月にGoogleが発表して話題を呼んだ技術です。これは、翻訳システムに「英語と日本語双方向」と「英語と韓国語双方向」の翻訳を教育したら、間に英語を介さずに翻訳できるのではないか?と考えた研究者によって研究が行われました。この結果、明示的なトレーニングやマッピングのない2つの言語でも「reasonable(筋の通った)」翻訳が可能だったとのこと。


LASERの文章におけるベクトル表現は言語入力とNLPの両方において包括的です。LASERは「どんな言語でも同じ文章は近くに置く」というゴールを持ち、言語を高次元空間に配置します。この時、文章と文章の距離は、それぞれの文章の意味が近いか遠いかを反映することになります。

以下がLASERの仕組みを表した図。左が1言語のみの状態で、右は多言語が使われている状態。左の図には「異なる言語で書かれた同じ意味を持つ文章」が近くに配置されていることがわかります。


LASERは他のニューラル機械翻訳と同様にエンコーダー/デコーダーを使ったSeq2Seqモデルを採用しており、全ての言語翻訳で入力を行うエンコーダーと、出力を行うデコーダーを共有しているとのこと。エンコーダーは5層からなる双方向性のLSTM(Bidirectional Long short-term memory/BiLSTM)ネットワークでできていますが、ニューラル機械翻訳とは違ってAttention層を使わず、その代わりに入力した文章を表現する1024次元の固定サイズのベクトルが存在するそうです。


1つのモデルを使ってカビル語ウイグルといったリソースが少ない言語を含む多くの言語を扱うことができるこのようなライブラリはLASERが初めてで、Facebookだけにとどまらず、NLPを用いたさまざまな機能やサービスに活用できるとみられています。たとえば、1つの言語で書かれた映画のレビューは、即座に100言語に翻訳して公開することが可能になるとのこと。

LASERはXNLIコーパスの14言語のうち13言語についてゼロショットのクロスリンガル自然言語推理を正確に行うことができ、クロスリンガル文書分類においても優れた結果を示したとのこと。Facebookが開発した分散表現(単語埋め込み)技術はパラレルコーパスマイニングにも強く、Tatoebaコーパスにある100言語以上のデータでテストしたところ、リソースが少ない言語における多言語類似検索にも強いことが示されました。

このほかのLASERのメリットは以下の通り。

・GPU上で1秒あたり最大2000もの文章を処理できるパフォーマンス
・センテンスエンコーダーはPyTorchによって実行される
・ソースの限られた言語は、その他の多くの言語の合同訓練による利益を受けられる
・1つの文章における複数言語の使用をサポートしている
・システムは語族の特徴を認識して学ぶため、新しい言語が追加されるごとにパフォーマンスは向上する

この記事のタイトルとURLをコピーする

・関連記事
「AI」と「機械学習」は何がどのように違うのか?をわかりやすく解説するとこうなる - GIGAZINE

ディープラーニングで翻訳プログラムを0から作った人がその仕組みを複雑な数式ではなく図で解説するとこうなる - GIGAZINE

Facebookが機械翻訳の質を劇的に向上させるAI技術を開発 - GIGAZINE

Google翻訳のAIは独自の「中間言語」を習得して「学習してない言語間の翻訳」すら可能な段階に突入 - GIGAZINE

Google翻訳が突然「終末期」や「イエスの再来」などを予言してくると話題に - GIGAZINE

in ソフトウェア,   サイエンス, Posted by darkhorse_log

You can read the machine translated English article here.