ChatGPTは単語当てパズルゲーム「Wordle」が苦手なことが判明



OpenAIの対話型AI「ChatGPT」は、人間からの質問に対して非常に自然に受け答えできるだけではなく、Googleのコーディング職の試験やロースクールの試験に合格したり、単語埋めパズルやポケモンをプレイすることに成功したりと、さまざまな驚くべき実力を見せています。しかしながら、一致する文字の種類と位置だけで5文字の単語を当てる大人気パズルゲーム「Wordle(ワードル)」をChatGPTが苦手としている可能性があると、アイルランドのゴールウェイ大学でコンピューターサイエンスを研究するマイケル・G・マッデン教授が指摘し、その原因とChatGPTが苦手を克服するための手段を解説しています。



Wordleは、文字数だけ分かっている単語を推測で回答していき、「その文字が含まれている」時は「黄色」に、「その文字の位置が一致している」時は「緑」に単語欄が変化し、このヒントを手がかりにして5回答えるまでに正解の単語を導き出すパズルゲームです。英語版はWordleを買収したニューヨークタイムズのページでプレイできるほか、文字の数が約2倍に増えた代わりに回答権も8回に増えた日本語版Wordleや、ポケモンの名前を当てるファンメイドのPOKEMON WORDLEなども遊ぶことができます。





Wordleをプレイするコツは「どの文字が使われているか、あるいは使われていないかというヒントを得るために、バラバラの5文字で作られた単語を発想し続ける」という点にあります。また、使われている文字や文字の位置が判明した場合は、その文字が入った5文字の単語を思いつく必要があります。進めていくごとに使える文字が制限されていき、適切な単語を辞書やインターネットで調べることも難しいため、語彙(ごい)力や発想力が求められるゲームですが、マッデン教授はChatGPTの力を借りてWordleのクリアを目指してみました。



マッデン教授はまず、「?E?L?」という2文字目の「E」と4文字目の「L」という2文字の位置が判明した状況で、ChatGPTをテストしました。すると、ChatGPTは「beryl」「feral」「heral」「merle」「revel」「pearl」という6つの回答を行いましたが、そのうち5つは条件に該当していませんでした。似たような質問をChatGPTに繰り返し行ったところ、指定された文字の位置によっては有効な回答をChatGPTが見つけることもあったものの、全体としては非常に当たり外れが大きく不安定で、時には辞書に存在しない単語も提案してきたとマッデン教授は述べています。



なぜChatGPTはWordleをまともにプレイできないのか、マッデン教授は洞察を語っています。対話型AIに用いられている大規模言語モデル(LLM)は、自分の能力を向上させるために約5000億語のテキストで訓練されており、言語や文章について圧倒的な能力を持っています。しかし、マッデン教授によるとChatGPTの核となるのは入力と出力を対応させる複雑な数学的関数であるディープニューラルネットワークのため、入力と出力は数字である必要があります。ChatGPTは言葉を数字に「翻訳」することで言葉を扱っています。



言葉を数字に変換してディープニューラルネットワークに取り組む仕組みは、「トークナイザー」と呼ばれるプログラムによって行われ、トークナイザーは「トークン」と呼ばれる単語と文字列の膨大なリストを保持します。このトークンは、数字で識別され、例えば「friend」という単語はトークンIDが「6756」で、「ship」はトークンIDが「6729」のため、「friendship」のような単語は「friend」と「ship」というトークンに分解されて「6756と6729」という識別子で表されます。ChatGPTにユーザーが質問を入力すると、ChatGPTで処理が行われる前にまず単語が数字トークンに変換され、数字を処理することで回答を出力します。このように、ディープニューラルネットワークはテキストとして単語にアクセスできないため、文字について実際に推論することはできません。



それでもChatGPTは文章を生成するのにたけており、特に「あいうえお作文」のような頭文字を指定された言葉を扱うのを得意としています。これは、ChatGPTの学習データには膨大な数のテキストが含まれており、その中にはアルファベットの索引が含まれていることが多いため、ChatGPTは単語を頭文字と関連付けて学習していた可能性があるとマッデン教授は推測しています。しかし、ChatGPTは関連付けの薄い「単語の最後の文字」を扱う要求を処理することを苦手としているほか、前から読んでも後ろから読んでも同じ読みになる「回文」も苦手としています。





マッデン教授は以上の点から、あらゆる単語をインプットしているはずのChatGPTがWordleを苦手としている理由は、「単語を数字トークンで処理しているため、単語のどこにどの文字があるか分析できない」「データベースには、頭文字を参照する『もくじ』や『索引』などは多いが、それ以外の文字の位置を参照するケースはほとんどない」からだと指摘しています。しかしその一方で、マッデン教授はそのような特徴のあるChatGPTでWordleを攻略する裏技も提案しています。



ひとつ目の方法として、ChatGPTが頭文字を扱うのは得意なのにそれ以外の文字の位置は扱えないのは、あくまでトレーニングデータの内容によるものと考えられます。そのため、トレーニングデータを拡張して辞書内のすべての単語における文字位置のマッピングを行うことで解決できる可能性が高いです。



また、ChatGPTは会話や試験問題の解答の他、プログラミングについても数日かかる作業を5分で完了させたという報告もあるほど得意としています。そのため、マッデン教授はChatGPTに「Wordleの欠けている文字を特定するプログラムを書いて」と依頼したところ、出力されたプログラムはいくつかのバグを手直しするだけで機能し、「?E?L?」というパターンに一致する単語を48個提案してくれたそうです。このようなLLMが通常苦手とする作業を外部のツールを使って行うアイデアを「Toolformer」と呼び、AI技術のさらなる発展への洞察として注目されています。