Googleが自然言語処理の弱点「言い換え」を克服するデータセットを公開
by Nicole Honeywill
自然言語処理のアルゴリズムは言葉の順序や構造の理解を不得意としてきました。この課題を克服すべく、Googleが新たにデータセットを公開。このデータセットで訓練を行うと、機械学習モデルのテキスト分類精度が50%から80%にまで向上するとのことです。
Google AI Blog: Releasing PAWS and PAWS-X: Two New Datasets to Improve Natural Language Understanding Models
https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html
Googleは機械翻訳や音声認識で自然言語処理を取り入れていますが、自然言語処理では最先端のアルゴリズムでも「ニューヨークからフロリダへのフライト」「フロリダへのニューヨーク発のフライト」「フロリダからニューヨークへのフライト」といった文章の違いを正しく認識できません。既存のアルゴリズムの弱点が「言い換え」にあることは、かねてから研究者が指摘してきた点です。
Googleはこの問題を「多様性」を用いて解決すべく、2019年10月2日(水)に「Paraphrase Adversaries from Word Scrambling(PAWS)」という名のコーパスを公開しました。PAWSは英語のみのため、同時にフランス語・スペイン語・ドイツ語・中国語・日本語・韓国語に対応した「PAWS-X」も公開されています。パラフレーズと非パラフレーズから構成されるPAWSやPAWS-Xにより、アルゴリズムが言葉の順序や構造を捉える正確性がこれまでの50%という数字から、85~89%に向上するとGoogleは述べています。
by Romain Vignes
PAWSデータセットには、Quora Question PairsやWikipediaをソースとする英語に人間がラベルをつけた10万8463ペアの言葉が含まれています。一方で、PAWS-Xは人間が翻訳したPAWSのデータ2万3659ペアと、機械翻訳トレーニングによる29万6406ペアを含みます。
Googleの研究者であるYuan Zhang氏とソフトウェアエンジニアのYinfei Yang氏によると、たとえ複雑な文脈の文章を理解する機械学習モデルであっても、特定の文章パターンを学ぶことは困難とのこと。「新しいデータセットは、機械学習モデルが持つ言葉の順序や構造に対する感度を測定するための効果的な手段を与えます」と2人はGoogleのブログにつづっています。
自然言語処理の精度に対するコーパスのインパクトを調べるため、研究者が複数のモデルに対してトレーニングを行ったところ、特にBERTモデルとDIINモデルの2つはベースラインと比較して「著しい」改善がみられたとのこと。もともとBERTの分類精度は33.5%でしたが、PAWSとPAWS-Xにより精度が83.1%にまで上昇したそうです。
「我々の望みは、このデータセットが文章構造や文脈の抽出、あるいは一対比較などを改善し、多言語モデルの研究コミュニティーに大きな前進をもたらすことです」とZhang氏とYang氏はつづりました。
・関連記事
「AI」と「機械学習」は何がどのように違うのか?をわかりやすく解説するとこうなる - GIGAZINE
初心者向け「機械学習とディープラーニングの違い」をシンプルに解説 - GIGAZINE
ディープラーニングで翻訳プログラムを0から作った人がその仕組みを複雑な数式ではなく図で解説するとこうなる - GIGAZINE
自然言語処理などに利用されるAIモデルは言葉の「言い換え」に脆弱であると研究者らが指摘 - GIGAZINE
Facebookが90言語以上の機械翻訳を加速させるためのツールキット「LASER」を公開中 - GIGAZINE
・関連コンテンツ