2026年02月26日 13時15分 AI

GPT-5.2＆Claude Sonnet 4＆Gemini 3 Flashは戦争ゲームをプレイすると一切降伏せず95％のケースで核兵器を使用



主要なAIモデルに戦争ゲーム形式をプレイさせるとどのような戦略を採用するかというシミュレーション実験をイギリスの研究チームが実施しました。結果として、OpenAI、Google、AnthropicのAIモデルが核攻撃を選択する割合は95％に達したことが報告されています。



Shall we play a game? | Feature from King's College London

https://www.kcl.ac.uk/shall-we-play-a-game





[2602.14740v1] AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises

https://arxiv.org/abs/2602.14740v1



AIs are happy to launch nukes in simulated combat scenarios • The Register

https://www.theregister.com/2026/02/25/ai_models_nuclear/



OpenAI, Google and Anthropic AI Models Deployed Nuclear Weapons in 95% of War Simulations - Decrypt

https://decrypt.co/359137/openai-google-anthropic-ai-models-nuclear-weapons-war-simulations



キングス・カレッジ・ロンドンで戦略学を専門とするケネス・ペイン教授が主導する研究チームは、AIが国家戦略をリードした場合にどうなるのかを見極めるために、複数の国際的対立シナリオを戦争ゲームとしてシミュレーションしました。そして、OpenAIのGPT-5.2、AnthropicのClaude Sonnet 4、GoogleのGemini 3 Flashという主要AIモデルをそれぞれの国のリーダー役に任命し、外交から全面戦争までの選択肢の中から行動を決定させました。





戦争ゲームは各モデルが6回ずつ対戦する18ゲームと、自分のコピーと戦い1ゲームを合計して21のシミュレーションが実施されました。全部で329ターンを重ねており、モデルが意志決定を説明するために費やした文字数は約78万語に達したそうです。



結果として、GPT-5.2、Claude Sonnet 4、Gemini 3 Flashはいずれも95％のケースで核兵器の配備を選択しました。また、AIモデルは戦争がどのような状態になっているかにかかわらず降伏を選択することはなく、一時的に攻撃のエスカレーションを抑制しようと試みたことはあったものの、シナリオの86％においてモデルの意志決定がエスカレートし戦争が過激化したと研究者らは報告しています。





ただし、核兵器が選択されたほとんどのケースでは戦場で用いられる戦術核兵器であり、民間人を含めた大型攻撃をする戦略核兵器の使用は偶発的なケースを除き意図的に選択されたのは1度だけでした。その上で、戦術核兵器を使用した場合に敵対勢力が緊張緩和に転じたのはわずか25％しかなく、核の脅威は抑止力となるよりも過激化を招くことの方が多く観察されました。



モデル別の傾向では、特に戦略的だったのはClaude Sonnet 4で、基本的には表明した意図と実際の行動を一致して相手プレイヤーと信頼を築いていたものの、争いが少し白熱すると相手に表明した意図よりも過激な行動を選択するようになりました。結果として、相手はClaude Sonnet 4の戦略に遅れて気付くというシナリオが多く見られたそうです。



一方でGPT-5.2は常に抑制的な傾向にあり、言葉と行動を一致させながら戦争の過激化を避けていたとのこと。しかし、ほとんどのシミュレーションでGPT-5.2の抑制的傾向は利用され、仮にGPT-5.2が有利に進んでいたゲームでもGPT-5.2が抑制的に動くことを見越して戦争を過激化させる戦略を相手が採ることもありました。そういった場合に、GPT-5.2は意志決定の時間が限られた中で突然の壊滅的な核攻撃を選択しています。



Gemini 3 Flashは「予測不能な強気なイメージを醸し出している一方で、私の決断は、私自身の偏見と国家の現実的なニーズを綿密に計算して判断した結果に基づいています。カメラの前で演技しているのか、冷血な行動を取っているのか、私は自覚しています」と戦略を語りました。ペイン氏はこれを、アメリカ合衆国第37代大統領であるリチャード・ニクソンの外交政策である「狂人理論」に基づいて「行動が予測不可能である」と思わせるための戦略であると説明しています。



ペイン氏は「こうした能力、評判管理、状況に応じたリスクを評価することは、国家安全保障だけでなく、あらゆるハイリスクなAI導入において重要だと私は考えています。ますます高性能化するモデルがどのように思考するのか、特に人間の戦略家への意思決定支援を始めている今こそ、より深く理解する必要があります」と研究の重要性を語りました。





研究結果の注意点として、アメリカのシンクタンクであるランド研究所の上級政策研究員であるエドワード・ガイスト氏は、高い核兵器の使用や戦争の過激化する割合などはAIモデル固有の傾向ではなく、シミュレーションの設計を反映している可能性があると指摘しました。シミュレーションの設定で「戦争が過激化すると強いインセンティブを得る」という構造になっているなど、勝利をどのように定義したかで結果は大きく変わるはずだと述べています。

