AIシステムはどのように失敗するのかをAnthropicが解説

AIモデル「Claude」をリリースしているAI企業のAnthropicが、「AIシステムの失敗はどこに原因があるのか」について研究結果を発表しました。研究では、従来は「AIが人間の意図を捉え損ねて出力に失敗する」と考えられていましたが、「まったく意味のない行動」を示す失敗も重要な要因であることが示されました。
The Hot Mess of AI: How Does Misalignment Scale with Model Intelligence and Task Complexity?
https://alignment.anthropic.com/2026/hot-mess-of-ai/

AIの能力が向上してさまざまなタスクがAIに委ねられる中で、AIシステムがどのように大きな失敗をするかを理解することは、安全性にとってますます重要な課題となっています。
AIの典型的な失敗に、「ペーパークリップマキシマイザー」のシナリオがあります。ペーパークリップマキシマイザーとはスウェーデンの哲学者であるニック・ボストロム氏が2003年に発表した思考実験で、「『できるだけ多くのペーパークリップを作る』ことだけを目的としたAIを作った場合、『ペーパークリップを作るための機械の電源を切って目標達成を妨げる可能性がある人間はいない方がよい』とAIは判断するかもしれない」というシナリオで、「一見無害に見える目標を設定した場合でもAIが人間の実存的リスクを脅かす可能性がある」と警告するものです。思考実験のシナリオ自体は極端なもので実際に起きるとは考えにくいですが、「AIが間違った目標をプロンプトから読み取った結果、出力の方向性を間違える」というのはよくある失敗です。
AIが意図しない目標を持って暴走することをAnthropicは「ミスアライメント」と呼んでいます。従来の安全性研究ではミスアラインメントに焦点を当てていましたが、新しい研究ではタスクが難しくなり推論が長くなるにつれて、モデルの失敗は体系的なミスアライメントではなく予測不可能で自己破壊的な「ホットメス(混乱状態)」に陥る可能性が考えられています。

研究では、最先端推論モデルの失敗をバイアス(一貫した体系的な間違い)とバリアンス(ランダム性が高い脈絡のない間違い)の要素に分解し、AIモデルの失敗を定量化しました。4つの推論モデル「Claude Sonnet 4」、OpenAIの「o3-mini」「o4-mini」、Alibabaの「Qwen3」を対象に、選択式ベンチマーク(GPQA、MMLU)、エージェントコーディング(SWE-Bench)、安全性評価(Model-Written Evals)において性能を評価した上で、どのような失敗が現れるか調査しました。また、合成された最適化タスクを使って小規模な独自モデルもトレーニングしています。
実験の結果、すべてのタスクとモデルにおいて、モデルが推論と行動の実行に費やす時間が長くなるほどモデルの一貫性は失われることが判明しました。AIが思考時間を増やすほど、予測できないホットメスの失敗が出る可能性が高まります。特に、モデルが自発的に長い推論をした場合は、非一貫性が劇的に上昇することが分かりました。
ホットメスが起こる原因として、研究ではAIモデルを「動的システム」として捉えることの重要性を指摘しています。AIモデルは単に明確な目的を安定して最適化する装置ではなく、高次元の状態空間の中で軌跡を描きながら推論を進めています。このような動的システムを干渉可能な最適化装置として動作させるように制約することは極めて困難であり、状態空間が複雑になるほど制御すべき制約の数が指数関数的に増加する可能性があります。そのため、AIモデルを最適化装置として動作させるためには相当な労力が必要であり、AIモデルの規模が大きくなることで解決することは難しいとAnthropicは述べています。

また、大規模なモデルは簡単なタスクでは一貫性を高めることができましたが、難しいタスクでは一貫性が失われたことが確認されました。スケーリングは全体的な精度を向上させることができますが、スケーリングだけでは難しい問題におけるホットメスの失敗を解消できないことを示唆しています。
Anthropicは研究結果を受けて、「将来のAIの失敗は、訓練されていない目標を首尾一貫して追求するアライメントよりも、 複雑な要因が絡み合って制御不能になる産業事故のようなホットメス型になる可能性があることを示しています」と述べました。アライメントも依然として問題ではありますが、研究の優先順位を変えていく必要があるとAnthropicは結論付けています。
・関連記事
AIの「ペルソナ」発現パターンを検出して問題がある性格を抑え込む研究結果をAnthropicが公開 - GIGAZINE
AIに少しの「誤った情報」を学習させるだけで全体的に非倫理的な「道を外れたAI」になることがOpenAIの研究で判明 - GIGAZINE
OpenAIやGoogleなどの主要AIは自分の目標を優先するためにユーザーを破滅させる選択をする、生殺与奪の権を握らせるとユーザーをサーバー室で蒸し殺す判断も下してしまう - GIGAZINE
AnthropicがClaudeの「憲法」を改訂、安全性と倫理性が有用性よりも優先される - GIGAZINE
「AIがロールプレイに熱中しすぎて有害な返答をしてしまう問題」の解決方法をAnthropicが開発 - GIGAZINE
・関連コンテンツ
in AI, Posted by log1e_dh
You can read the machine translated English article Anthropic explains how AI systems fail….







