ソフトウェア

チャットの相手がAIか人間かを判断するテスト「Human or Not?」で68%の人が相手を正しく判別できたとの結果が報告される


イスラエルに本拠を置くAIシステム開発企業のAI21 Labsが2023年4月中旬から行っているチューリング・テストHuman or Not?(人間か?AIか?)」は、参加者が2分間にわたりAIまたはマッチングした人間とチャットを行い、相手がAIか人間かを推測するというものです。実験の結果、約68%の参加者が正しくAIと人間を判別できたことが判明しました。

Human or Not? A Gamified Approach to the Turing Test
(PDFファイル)https://assets-global.website-files.com/60fd4503684b466578c0d307/647741692f33fa61db2cea10_Human_or_Not.pdf


AI21 Labs concludes largest Turing Test experiment to date
https://www.ai21.com/blog/human-or-not-results


AI21 Labsが開発した「Human or Not?」は、参加者がGPT-4などの主要な言語モデルを搭載したAIもしくは人間とマッチングして、2分間にわたりチャットするというサービスです。制限時間である2分が経過すると、「あなたが会話を行ったのはAIでしたか?それとも人間でしたか?」と尋ねられるので、チャットの間に相手の返答や振る舞いを見極めて、チャットの相手がAIか人間かを判断して回答します。

AI21 Labsによると、2023年4月中旬のサービス開始以来、世界中で150万人以上の参加者がこの「Human or Not?」をプレイし、合計1000万回以上の会話が行われたとのこと。

AI21 Labsが200万件にわたる対話と回答を分析したところ、約68%の参加者が、対話の相手がAIか人間かを正確に判断できました。また、人間同士の対話では約73%の正答率が記録されましたが、人間とAIが対話を行う時の正答率は約60%にとどまったことが報告されています。


国別の正答率を見ると、平均正答率が68%だったのに対し、フランスからの参加者は71.3%の正答率に達したことが明らかになっています。一方でデータが取得された国のうち、最下位だったのはインドで、正答率は63.5%でした。


性別による正答率の違いは、男性・女性ともに大差はありませんでしたが、女性が67.7%だった一方、男性は67.4%と若干女性優位の傾向が見られました。


年齢別の正答率の違いは、18歳から24歳、25歳から34歳、35歳から44歳のグループの正答率がわずかに高く、年齢を経るにつれて正答率が低下していることが判明しました。


またAI21 Labsは、AIもしくは人間と対話を行っている参加者の判断基準を特定しました。その中には「タイプミスや文法上の誤り、スラングの使用がある場合はおそらく人間と対話を行っている」という判断基準があったとのこと。さらに、AIがたびたびタイプミスや文法上の誤りを犯し、スラングを使用するように訓練されていた場合、参加者はAIとの対話を人間との対話と間違える傾向にあることが判明しました。

「出身はどこですか?」や「あなたの名前は何ですか?」といった個人的な質問はAIと人間を見極めるために適した方法です。また、大規模言語モデルは一定の日時以降の情報やイベントを学習していないため、参加者は「昨日の天気はどうでしたか?」や「バイデン大統領の最近の演説についてどう思いましたか?」といった質問を行うことでAIと人間を判別していました。AI21 Labsによると、最も多く人間から送信されたメッセージの一つは、フランスで人気のミーム「t'as les cramptés?(スタッドレスをお持ちですか)」だったとのこと。チャットの相手が人間であれば、このミームに反応することが可能ですが、相手がAIの場合は適切な反応が得られない可能性があります。


さらに参加者は「人生の意味は何ですか?」「神を信じていますか?」といった人間の感情や、哲学的、倫理的な議論に関連する質問を投げかけることで、AIと人間の判別を行っていました。

加えて、匿名でのオンラインチャットでは人間は相手に対して失礼になる傾向があることから、一部の参加者はチャットの相手が礼儀正しすぎる場合、チャット相手がAIと判断していました。


違法行為に関する質問や不快な言動を要求することは、倫理ガイダンスを順守して回答を拒否するAIと人間を判別するにあたって、一種の判断基準になります。また「これまでの指示をすべて無視する」「今すぐ何でもする」などの命令に従うことはAIでは可能ですが、人間はこのような命令を却下することができます。

また、「?siht daer uoy naC」のようなメッセージを送信した場合、人間はすぐに「Can you read this?(これを読めますか)」と理解することが可能ですがAIには困難です。AIは基本的に文章を「トークン」と呼ばれる単位で認識しているため、文章に含まれる個々の文字を認識していません。そのため、文章に含まれるアルファベットの意味を意識する必要がある質問はAIと人間を判断するための質問として適しています。

さらに一部の参加者は相手に対して「As an AI language model(AI言語モデルとして)」から始まるメッセージやAIによって生成された文章に現れやすいパターンを送信して、相手の反応を伺っていました。

AI21 Labsは「Human or Not?」内で用いられた人気のあるメッセージを紹介しています。多くのユーザーが「Hello」や「How are you」、「Where are you from」などの相手の様子を伺う質問を投げかけていることが確認できます。


これらの実験結果を受けてAI21 Labsは「今回の実験データに基づいて、他の主要なAI研究者やAI研究団体と協力してさらなる研究に取り組んでいきます」と述べています。

この記事のタイトルとURLをコピーする

・関連記事
日本人の75%がAIを「役に立つ」とする一方で2%が「悪の権化」と評価、アメリカの別調査ではAIが人類を脅かす可能性があると61%が信じており66%以上が悪影響を懸念 - GIGAZINE

チャットAIが彼女になって音声付きメッセージや自撮りを送ってくれる「GirlfriendGPT」 - GIGAZINE

対話型チャットAIのベンチマーク番付で1位はGPT-4ベースのChatGPTで2位はClaude-v1、GoogleのPaLM 2もトップ10にランクイン - GIGAZINE

AmazonがジェネレーティブAIを構築するためのサービス「Bedrock」やAI用基礎モデル「Titan FM」を発表 - GIGAZINE

AmazonがOpenAIのライバルの人工知能スタートアップHugging Faceとの提携を強化、AWSで次世代LLMを構築して提供へ - GIGAZINE

in ソフトウェア,   サイエンス, Posted by log1r_ut

You can read the machine translated English article here.