2021年12月23日 19時00分サイエンス

AIは人間と同じように言葉の意味を「理解」しているのか？

近年では人工知能(AI)の研究が急ピッチで進められており、OpenAIの「GPT-3」に代表される「自然な文章を生成するAI」が登場しています。「AIはすでに『言葉を理解している』のではないか」と思う人も多いかもしれませんが、アメリカのサンタフェ研究所で複雑系科学の教授を務め、「Artificial Intelligence: A Guide for Thinking Humans」などの著者でもあるメラニー・ミッチェル氏は、記事作成時点でのAIは真の意味で「言葉を理解している」とは考えにくいとの説を述べています。

What Does It Mean for AI to Understand? | Quanta Magazine
https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/

「自然言語理解は長年にわたり、AI研究の目標とされてきました」とミッチェル氏が語る通り、人間のように言語を理解して読み書きできるAIを構築するため、多くの科学者が手を尽くしてきました。当初は、ニュース記事やフィクションの文章を理解するために必要な「全ての要素やルール」を、研究者が手動でプログラムする方法が模索されていましたが、文章理解に必要なあらゆるものを書き留めることは現実的に不可能でした。そのため、近年では「膨大なテキストデータを学習させてAI自身に言語を理解させる」という手法が確立されています。

膨大なテキストデータを基に構築されたAIは「言語モデル」と呼ばれており、GPT-3のような大規模なニューラルネットワークは、一見すると人間との区別がつかない文章を生成できます。しかし、ミッチェル氏は「AIは自身が生成した表面上は理屈が通っている文章について、本当に理解しているのでしょうか？」と述べ、AIによる言語理解には疑念が残るとしています。

機械が言葉の意味を理解するかどうかを判断する方法としては、1950年に計算機科学の第一人者であるアラン・チューリングが提案した「チューリング・テスト」が挙げられます。チューリング・テストは、「文章による会話のみで人間と機械を対話させ、その会話を見た判定者が人間と機械を正しく判別できなかった場合、機械には物事を考える知性がある」とするものですが、これについてミッチェル氏は「残念ながらチューリングは、人間が機械にだまされる傾向を過小評価しました」と指摘。実際には1960年代に開発されたELIZAといった初期の比較的単純なチャットボットですら、チューリング・テストで一定の成果を上げることができました。

2012年に発表された論文では、チューリング・テストの改良版と言える「ウィノグラード・スキーマ・チャレンジ」が提案されました。AI言語コミュニティ内でも1つの方法として採用されているこのテストは、以下のように短い文章と質問で構成されています。

文章1：I poured water from the bottle into the cup until it was full.(ボトルからカップがいっぱいになるまで水を注ぎました)
質問1：What was full, the bottle or the cup?(ボトルとカップ、どちらがいっぱいでしたか？)
文章2：I poured water from the bottle into the cup until it was empty.(ボトルからカップに空っぽになるまで水を注ぎました)
質問2：What was empty, the bottle or the cup?(ボトルとカップ、どちらが空っぽでしたか？)

文章1：Joe’s uncle can still beat him at tennis, even though he is 30 years older.(ジョーのおじさんは30歳も年上なのに、彼をテニスで倒すことができます)
質問1：Who is older, Joe or Joe’s uncle?(ジョーとジョーのおじさん、どちらが年上ですか？)
文章2：Joe’s uncle can still beat him at tennis, even though he is 30 years younger.(ジョーのおじさんは、30歳も年下なのに彼をテニスで倒すことができます)
質問2：Who is younger, Joe or Joe’s uncle?(ジョーとジョーのおじさん、どちらが年下ですか？)

代名詞を含んだこれらの文章および質問に正しく答えるには、「常識的な理解」が必要と考えられます。ウィノグラード・スキーマ・チャレンジは人間のあやふやな判断に頼るのではなく、より定量的にAIの理解をテストできるとされており、論文の著者は「質問の解答をGoogle検索で見つけられないようにする」ことも考慮して質問を設計しています。2016年に開催されたコンペティションでは、ウィノグラード・スキーマ・チャレンジの正答率が最も高いAIでもたった58％しか正答できず、ランダムに解答した場合とそれほど大差ない結果だったとのこと。

ところが近年では、大規模なニューラルネットワークの登場によって、AIがウィノグラード・スキーマ・チャレンジに正答する割合が飛躍的に上昇しています。2020年の論文ではGPT-3がウィノグラード・スキーマ・チャレンジの正答率で90％近い値を記録したと報告されており、他の言語モデルも同等かそれ以上の結果を残しています。記事作成時点では、最先端の言語モデルはウィノグラード・スキーマ・チャレンジで人間に匹敵する正答率を誇りますが、それでもミッチェル氏は「言語モデルが人間のように言語を理解したとは言えない」と主張しています。

ミッチェル氏がAIの問題点として指摘するのが、「AIはウィノグラード・スキーマ・チャレンジにおいて、文章の意味を理解せずに答えにたどりつくショートカットを作り出せる」という点です。たとえば、「The sports car passed the mail truck because it was going faster(スポーツカーが郵便配達車を追い越したのは、そのスピードが速かったからです)」「The sports car passed the mail truck because it was going slower.(スポーツカーが郵便配達車を追い越したのは、そのスピードが遅かったからです)」という文章について考えてみます。

人間は頭の中でスポーツカーや郵便配達車、道路、それぞれの速度などを想像できます。しかし、AIはあくまで英語圏の膨大なテキストデータから、「sports car(スポーツカー)」「fast(速い)」の相関関係や、「mail truck(郵便配達車)」「slow(遅い)」の相関関係を吸収し、相関関係に基づいて正しい答えを出すだけです。つまり、テキストデータの相関関係のみに基づいて解答するというAIのプロセスは、人間の「理解」とは違うだろうとミッチェル氏は主張しているわけです。

こうしたウィノグラード・スキーマ・チャレンジの問題点を解決するため、アメリカのアレン人工知能研究所の研究チームはオンラインで募集した人間に書かせた文章を基にした、改良版のウィノグラード・スキーマ・チャレンジ(WinoGrande)を2019年に開発しました。これは一時的に多くのAIに勝ったそうですが、その後のAI研究の進展によってより大規模なニューラルネットワーク言語モデルが開発され、記事作成時点では90％近い正答率を誇るものも登場しています。このパフォーマンスの向上は、ニューラルネットワーク言語モデルと訓練データのサイズが大きくなったことによるそうです。

しかし、それでもミッチェル氏はAIが人間のような常識的な理解を獲得したかどうかという問いについて、「繰り返しますが、その可能性は低いです」と述べています。実際に、WinoGrandeに関するフォローアップ調査では、「ほぼ同じ単語で構成された『対になっている2つの文章』を1セットにして、2つとも正解できれば正答と見なす」という方法でAIをテストしたところ、人間よりもはるかに正答率が下がったとのこと。

AIをテストする一連の取り組みから得られる教訓として、ミッチェル氏は「AIシステムが本当に意味を理解しているかどうかは、与えられたタスクに対するパフォーマンスから判断するのは難しい」というものを挙げています。ニューラルネットワーク言語モデルは人間のように文章の意味を理解するのではなく、統計的な相関関係に基づいて解答するケースが多いためです。

ミッチェル氏は、「私の見解では、問題の核心は『言語を理解するには世界を理解する必要があり、言語のみにさらされた機械にはそのような理解を得ることができない』ということです」と指摘。「スポーツカーが郵便配達車を追い越したのは、そのスピードが速かったからです」という文章を理解するには、「スポーツカーと郵便配達車が何であるか」「車がお互いに追い越したり追い抜いたりできること」「車が人間によって操作され、世界に存在し、相互作用するオブジェクトであること」など、世界の根本的な常識や概念を知る必要があるとのこと。

「一部の認知科学者は人間が言語を学び、理解するためには、空間や時間、その他多くの世界の本質的な性質について、生得的で言語に先立つ中核的な知識に頼る必要があると主張しています」とミッチェル氏は述べ、AIが人間と同様に意味の理解を持っているのかどうかを評価したいのであれば、この「形而上学的な原則」をどれだけ把握できているのかにも目を向ける必要があると主張しました。