ソフトウェア

1960年代のチャットボット「ELIZA」がチューリングテストでOpenAIの「GPT-3.5」を破る


対話相手が機械なのか人間に予想してもらう「チューリングテスト」の結果、「ChatGPT」に使われるOpenAIの言語モデル「GPT-3.5」が1960年代のチャットボット「ELIZA」に敗北したことがわかりました。

[2310.20216] Does GPT-4 Pass the Turing Test?
https://arxiv.org/abs/2310.20216

1960s chatbot ELIZA beat OpenAI’s GPT-3.5 in a recent Turing test study | Ars Technica
https://arstechnica.com/information-technology/2023/12/real-humans-appeared-human-63-of-the-time-in-recent-turing-test-ai-study/

「GPT-4はチューリングテストに合格するか」と題した研究で、カリフォルニア大学サンディエゴ校の研究者らがチャットボットの「ELIZA」およびOpenAIの「GPT-4」「GPT-3.5」を人間と対戦させ、人間がどれだけ機械を見分けられるかを検証しました。

「ELIZA」は1960年代にコンピューター科学者のジョセフ・ワイゼンバウム氏によって作成されたソフトウェアで、人間の言葉を受けて返答するという、チャットボットの先駆けのような存在です。人間の言葉に基づき「どんな内容ですか?」「詳しく教えてください」などとまるで会話するように返答を行いますが、少し複雑な言葉を投げかけるだけですぐに混乱します。


研究者らは、GPT-3.5およびGPT-4には「人間らしく振る舞うように」との命令文(プロンプト)を与え、自分が人間であることを相手に納得させるよう指示しました。

その上で研究者らは「turingtest.live」というウェブサイトを立ち上げ、インターネット上でチューリングテストを実施。このサイトを通じて参加者となった人間は「尋問者」または「証人」に割り振られ、尋問者となった人間は相手が機械なのかどうかを尋問し、反対に証人となった人間は相手に人間であることを納得させるよう指示されました。


証人には人間のほかにELIZAとGPT-3.5、GPT-4が含まれていたため、尋問者となった人間は対話を通じて相手が機械なのかどうかを判断する必要がありました。

尋問者が機械を見分けられたかどうかがグラフ化されたものが以下。尋問者が相手を人間だと正しく識別できた割合は63%でした。尋問者がELIZAを人間だと勘違いした確率は27%となっており、GPT-3.5の14%を上回りました。GPT-4はプロンプトによって異なり、最高で41%でした。


GPT-3.5は無料版ChatGPTのベースモデルであり、OpenAIによって、自分を人間として見せないように特別に設定されています。研究者らは「GPT-3.5やGPT-4は形式的な口調になるように微調整されています。我々はプロンプトでこれを変えようとしましたが、限界がありました」と指摘しました。

ELIZAが意外にもGPT-3.5を上回ったという結果については、ELIZAは「保守的」な回答をする傾向があり、誤った情報や不明瞭な知識を提供しないことが多いという点、GPTに見られるようなわざとらしい親切心や友好的な態度も示さないという点などから、人間の目に「非協力的な人間」のように映った可能性があると考察されています。


研究者らは、プロンプトを調整することで、GPT-3.5およびGPT-4がもっと高い成功率を示すのではないかと述べています。

この記事のタイトルとURLをコピーする

・関連記事
AIの創造的な思考能力がついに人間の平均を上回ったとの研究結果が報告される - GIGAZINE

Google DeepMindが「AIは人間と同じように社会学習でスキルを獲得できる」ことを実証したと主張 - GIGAZINE

AIに「それがファイナルアンサーなの?」「全力を尽くして」といった感情的な命令文を伝えるとパフォーマンスが向上する - GIGAZINE

AIに「深呼吸しよう」といった人間っぽい言葉をかけると問題の正答率が上昇するという研究結果 - GIGAZINE

ChatGPTはインターネット上であまり用いられない「非主要言語」を扱うと翻訳ミス・単語をねつ造・非論理的な回答などかなり応答レベルを落とすという報告 - GIGAZINE

in ソフトウェア,   サイエンス, Posted by log1p_kr

You can read the machine translated English article here.