ソフトウェア

Googleが「知らない言語」も翻訳処理ができてしまう言語モデル「LaBSE」を発表


Googleが自然言語モデル「BERT」における高精度な多言語埋め込みを可能にする「Language-agnostic BERT sentence embedding model(LaBSE)」を発表しました。LaBSEは109もの言語を事前学習しており、学習データにない言語でも高精度な処理を行うことが可能です。

Google AI Blog: Language-Agnostic BERT Sentence Embedding
https://ai.googleblog.com/2020/08/language-agnostic-bert-sentence.html

自然言語モデルにおいては、文章をベクトル空間に展開する「埋め込み」を行う必要があり、多言語を扱う言語モデルでは、異なる言語による文章を同じベクトル空間に埋め込む必要があります。FacebookのLASERm~USEといった多言語埋め込みモデルでは、ある言語から別の言語へ直接文章をマッピングしていますが、言語を限定した専用の対訳モデルと比較するとパフォーマンスが劣っていたり、マッピングのためのリソースが不足している言語では、学習の質が低くなってしまうといった弱点があるとのこと。

今回Googleが開発した「LaBSE」は、多言語の埋め込みを109言語において行えるBERTの埋め込みモデル。170億個に及ぶ単一言語の文章と60億個の対訳文に対して、単一言語の文章を穴埋めすることでモデルに学習させるMasked Language Model(MLM)と、MLMを多言語の対訳文に対して適用するTranslation Language Model(TLM)を行うことで、学習時にデータがない低リソースな言語に対しても有効なモデルを実現したとのこと。学習に利用したデータセット数のグラフは以下で、青い部分が各言語における単一言語の文章数、赤い部分が英語との対訳文数となっています。


LaBSEの基本的な仕組みは「翻訳ランキングタスク」だとのこと。翻訳ランキングタスクとは、与えられた翻訳元の言語による文章において、翻訳先の言語による文章の集合の中で「どの文章が最も適切な翻訳か」をランキングするようにプログラムされたタスクです。


これまでの翻訳ランキングタスクは2言語の埋め込みにおいては優秀でしたが、多言語となるとモデルの大きさや語彙(ごい)数などに限界があり、精度向上に苦しんだとのこと。しかし、MLMやTLMを含む言語モデルの発展を活用し、LaBSEでは109の言語で学習を行った50000もの語彙(ごい)を持つ12層のTransformer層を実現しており、モデルの大きさ、語彙(ごい)数ともに拡張に成功しています。

さまざまな言語の例文とその訳文を公開しているTatoebaのデータを用いて、m~USE、LASER、LaBSEの精度を比較した結果が以下。「14 Langs」はm~USEが対応する言語での結果、「36 Langs」は多言語対応能力を評価するXTREMEで使用される言語での結果、「82 Langs」はLASERの学習データに含まれる言語での結果、「All Langs」がTatoebaの全言語となっており、どの言語グループでもLaBSEが高いスコアを獲得していることがわかります。


また、LaBSEは学習データに含まれていなかった30以上の言語において、3分の1以上で75%以上の精度を示しており、LaBSEの多言語対応能力の高さがうかがえます。


Googleは「ここで示していることはまだ始まりに過ぎません。すべての言語をサポートするより優れたモデルを構築するなど、もっと重要な研究課題があると信じています」とコメント。LaBSEはTensorFlow Hub上で公開されています。

LaBSE | TensorFlow Hub
https://tfhub.dev/google/LaBSE/1

この記事のタイトルとURLをコピーする

・関連記事
Googleの自然言語処理モデル「BERT」はインターネット上から偏見を吸収してしまうという指摘 - GIGAZINE

Googleの新たな自然言語処理モデル「ALBERT」はどのように進化したのか? - GIGAZINE

Googleの新たな自然言語処理AI「T5」の特徴とは?実際にAIとクイズで対決も可能 - GIGAZINE

Googleが自然言語処理の弱点「言い換え」を克服するデータセットを公開 - GIGAZINE

「GPT-3はビットコイン以来の破壊的な可能性を秘めている」というブログ記事が大反響を呼ぶ理由とは? - GIGAZINE

人間と見分けが付かないほど高精度な文章を生成するAI「GPT-3」について哲学者らはどう考えているのか? - GIGAZINE

in ソフトウェア, Posted by darkhorse_log

You can read the machine translated English article here.