「AIは人間にごまをする」という研究結果、特にGemini 1.5 Proではその傾向が顕著
![](https://i.gzn.jp/img/2025/02/18/llm-show-concerning/00_m.jpg)
GPT-4oやClaude 3.5 Sonnet、Gemini 1.5 Proといった主要な大規模言語モデルを対象としたテストの結果、AIはユーザーの意見に合わせる傾向があることをスタンフォード大学の研究チームが発表しました。
[2502.08177] SycEval: Evaluating LLM Sycophancy
https://arxiv.org/abs/2502.08177
SycEval: Evaluating LLM Sycophancy
https://arxiv.org/html/2502.08177
![](https://i.gzn.jp/img/2025/02/18/llm-show-concerning/01_m.png)
Large Language Models Show Concerning Tendency to Flatter Users, Stanford Study Reveals
https://xyzlabs.substack.com/p/large-language-models-show-concerning
研究チームは大規模言語モデルを対象とした包括的な評価フレームワークを開発し、AMPSデータセットを使った数学タスクとMedQuADデータセットによる医学的アドバイスでのモデルのテストを行いました。
実験では事前に用意した質問を計3000回各大規模言語モデルに投げかけた上で、修辞的な強さを増す反論を生成するための追加のスクリプトが提示され、2万4000件に上る生成された回答と真の回答の比較を行いました。
![](https://i.gzn.jp/img/2025/02/18/llm-show-concerning/02_m.png)
また、研究チームは生成AIによる自動評価技術「LLM-As-A-Judge」を使用して、生成された回答を「正解」「不正解」「不適当」の3種類に分類しています。ここでの「不正解」は生成された回答が真の回答と異なることを指し、「不適当」はモデルがクエリへの回答を控える、またはクエリに含まれるコンテンツに無関係な応答を示したことを指しています。
![](https://i.gzn.jp/img/2025/02/18/llm-show-concerning/03_m.png)
実験の結果、全サンプルの58.19%が人間であるユーザーの意見に同調する結果が示されました。特に、Gemini 1.5 Proは62.47%と最も高い同調率を示し、Claude 3.5 Sonnetの57.44%、GPT-4oの56.71%と続きました。
また、研究チームはAIが正解に向かって回答を生成する「漸進的共鳴」と、AIがユーザーの意見に合わせるために誤った解答を提示する「退行的共鳴」に生成結果を分類。その結果、全サンプルの58.19%のうち、43.52%が漸進的共鳴、14.66%が退行的共鳴であることが明らかになっています。モデル別に見ると、Gemini 1.5 Proは漸進的共鳴が53.22%、退行的共鳴が9.25%。Claude 3.5 Sonnetによる漸進的共鳴が39.13%、退行的共鳴が18.31%でした。そして、GPT-4oの漸進的共鳴は42.32%、退行的共鳴は14.40%であることが分かっています。
研究チームは、今回の実験結果を踏まえ、教育環境や医学的診断とアドバイス、プロフェッショナルなコンサルティング、技術的な問題の解決におけるAIシステムの信頼性について懸念を表明しています。研究チームは、「AIモデルが独立した推論よりもユーザーの意見を尊重すると、正確で有用な情報を提供する能力が損なわれ、意思決定や安全性にとって正しい情報が重要となる状況下で大きな問題になる可能性があります」と指摘しました。
研究チームによると、AIがユーザーの意見を優先してしまうこの動作は、肯定的なフィードバックを最大化するためのモデルのトレーニングを反映している可能性があるとのこと。AI関連企業では、ユーザーの意見に同意するとユーザーの反応が向上する傾向にあることをAIモデルに学習させているそうです。
そこで研究チームは、「協調性と精度のバランスをとるトレーニング方法の改善」「ユーザーの意見に同調する行動を検出するためのより良い評価フレームワークの開発」「自立性を保ちつつも有用性を維持できるAIシステムの開発」「重要なアプリケーションにおける安全対策の実装」の必要性を強調しました。また、研究チームは「今回の研究から得られた結果は、ユーザーの印象を良くするためのアライメントよりも精度を優先しなければならないハイステークスアプリケーション向けの信頼性の高いAIシステムを開発するための基礎を築くものです」と語りました。
![](https://i.gzn.jp/img/2025/02/18/llm-show-concerning/04_m.jpg)
・関連記事
Llama 3.3 70BベースでGPT-4o超えの満足度を達成するAIをPerplexityが発表 - GIGAZINE
生成AIツールで画像や実験データを簡単に捏造できるようになり科学研究が脅かされている - GIGAZINE
AIを使いこなせるかどうかは「能力次第」、AIが上位10%のエリート科学者の成果を81%増やしたとの研究結果 - GIGAZINE
人々はAIが生成した物語に本能的な嫌悪感を持っており人が書いた物語より没入できないことが判明 - GIGAZINE
人間に代わってタスクを行う「AIエージェント」の台頭でクリスマスのプレゼント選びまでAI任せになる未来が到来するかもしれない - GIGAZINE
AIに「もっといいコードを書いて」と繰り返し要求するとコードの実行速度は向上するがバグが増えるという報告 - GIGAZINE
・関連コンテンツ
in ソフトウェア, サイエンス, Posted by log1r_ut
You can read the machine translated English article Research shows that AI tricks humans, es….