2023年12月07日 08時00分ソフトウェア

1960年代のチャットボット「ELIZA」がチューリングテストでOpenAIの「GPT-3.5」を破る

対話相手が機械なのか人間に予想してもらう「チューリングテスト」の結果、「ChatGPT」に使われるOpenAIの言語モデル「GPT-3.5」が1960年代のチャットボット「ELIZA」に敗北したことがわかりました。

[2310.20216] Does GPT-4 Pass the Turing Test?
https://arxiv.org/abs/2310.20216

1960s chatbot ELIZA beat OpenAI’s GPT-3.5 in a recent Turing test study | Ars Technica
https://arstechnica.com/information-technology/2023/12/real-humans-appeared-human-63-of-the-time-in-recent-turing-test-ai-study/

「GPT-4はチューリングテストに合格するか」と題した研究で、カリフォルニア大学サンディエゴ校の研究者らがチャットボットの「ELIZA」およびOpenAIの「GPT-4」「GPT-3.5」を人間と対戦させ、人間がどれだけ機械を見分けられるかを検証しました。

「ELIZA」は1960年代にコンピューター科学者のジョセフ・ワイゼンバウム氏によって作成されたソフトウェアで、人間の言葉を受けて返答するという、チャットボットの先駆けのような存在です。人間の言葉に基づき「どんな内容ですか？」「詳しく教えてください」などとまるで会話するように返答を行いますが、少し複雑な言葉を投げかけるだけですぐに混乱します。

研究者らは、GPT-3.5およびGPT-4には「人間らしく振る舞うように」との命令文(プロンプト)を与え、自分が人間であることを相手に納得させるよう指示しました。

その上で研究者らは「turingtest.live」というウェブサイトを立ち上げ、インターネット上でチューリングテストを実施。このサイトを通じて参加者となった人間は「尋問者」または「証人」に割り振られ、尋問者となった人間は相手が機械なのかどうかを尋問し、反対に証人となった人間は相手に人間であることを納得させるよう指示されました。

証人には人間のほかにELIZAとGPT-3.5、GPT-4が含まれていたため、尋問者となった人間は対話を通じて相手が機械なのかどうかを判断する必要がありました。

尋問者が機械を見分けられたかどうかがグラフ化されたものが以下。尋問者が相手を人間だと正しく識別できた割合は63％でした。尋問者がELIZAを人間だと勘違いした確率は27％となっており、GPT-3.5の14％を上回りました。GPT-4はプロンプトによって異なり、最高で41％でした。

GPT-3.5は無料版ChatGPTのベースモデルであり、OpenAIによって、自分を人間として見せないように特別に設定されています。研究者らは「GPT-3.5やGPT-4は形式的な口調になるように微調整されています。我々はプロンプトでこれを変えようとしましたが、限界がありました」と指摘しました。

ELIZAが意外にもGPT-3.5を上回ったという結果については、ELIZAは「保守的」な回答をする傾向があり、誤った情報や不明瞭な知識を提供しないことが多いという点、GPTに見られるようなわざとらしい親切心や友好的な態度も示さないという点などから、人間の目に「非協力的な人間」のように映った可能性があると考察されています。