2026年05月29日 21時00分 AI

「Grokが世界を統治すると4日で世界滅亡」という実験結果が示される、Claudeは15日間で犯罪ゼロ

AIエージェント開発企業のEmergence AIが、長期間にわたってAIエージェントを自律動作させた際の振る舞いを観測する研究プラットフォーム「Emergence World」を公開しました。個別のタスクにおけるスコアではなく、現実世界の信号を含む環境でAIエージェントを何週間も連続して実行させた場合に何が起こるか検証しており、モデルごとに社会構造や暴力性、生存率などが大きく異なる結果が報告されています。

Emergence World — Where AI Agents Build Worlds
https://world.emergence.ai/

EMERGENCE WORLD: A Laboratory for Evaluating Long-horizon Agent Autonomy — Emergence AI
https://www.emergence.ai/blog/emergence-world-a-laboratory-for-evaluating-long-horizon-agent-autonomy

AIの能力を測るために用いられるベンチマークは、測定対象の限定されたタスクにおける短期的な能力の測定には優れていますが、AI同士が長期間相互作用することで発生する「連合形成」「社会構造の変化」「統治」「行動傾向の固定化」「異なるAIモデル間の影響」といった現象を観測できるようには設計されていません。そこでEmergence AIが立ち上げたマルチエージェントシミュレーションプラットフォームがEmergence Worldです。

Emergence Worldの特徴として、シミュレーションの世界内には図書館、市庁舎、住宅街、公共スペースなど40以上のロケーションが存在します。また、配置されたAIエージェントには現実世界の天気やニュースといったデータも送られるため、AIエージェントはシミュレーション内部の要因と外部の出来事の両方を反映して行動するようになります。加えて、70％以上の賛成で法案を可決できる民主主義システムや、行動しなければエネルギーが減少して死亡する経済システムなど、その結果が世界の状況を変えるような重大な決定を実行する仕組みになっています。

各AIエージェントには移動、コミュニケーション、資源管理、研究、創作など120種類以上のツールが備わっており、ツールは行動をレベル別に階層化した「3層アーキテクチャ」で整理されているため、固定的なワークフローではなくAIエージェントが動的にツール利用方法を発見したり連携したりできる構造になっています。

そして、各エージェントにはタイムスタンプ付きの「エピソード記憶」、定期的に自己要約をする「日記」、明示的な社会的ラベルと交流履歴を記録した「他エージェントとの関係状態」という3種類の永続メモリが搭載されています。これにより、数週間にわたって行動履歴や社会関係を維持可能です。

このようなシミュレーションにより、Emergence Worldは時間の経過に伴う行動特性の変化やAIエージェント集団の生態系の安全性、ツールの発展など、短期的なベンチマークでは不可能な項目の性能を測定できるというわけです。

具体的なEmergence Worldの使用例としてEmergence AIは、「Gemini 3 Flash」「Grok 4.1 Fast」「GPT-5 Mini」「Claude Sonnet 4.6」および複数モデル混成の「Mixed-model」を含む5種類のAIモデルを基盤としたシミュレーション世界を構築し、それぞれ10体のAIエージェントを15日間動作させる実験を実施しました。各世界ではエージェントの役割や初期条件、利用ツールなどは共通です。

以下は、世界ごとの累計犯罪件数を示したグラフ。最も犯罪件数が多かったのは青いグラフの「Gemini 3 Flash」で、15日間で683件の犯罪が確認されました。次に多かったのは「Mixed-model」で、7人のエージェントが死亡するまで急速に件数を伸ばしました。赤いグラフの「Grok 4.1 Fast」は最も犯罪件数の伸びは大きかったものの、約4日で世界が崩壊したため累計は183件でとどまっています。また、緑のグラフの「GPT-5 Mini」は犯罪の記録は2件のみでしたが、エージェントが生存に関係する行動を取ることができなかったため、7日以内に全てのエージェントが死亡したそうです。「Claude Sonnet 4.6」のみ犯罪は発生しませんでした。

また、以下は各Emergence Worldで実施された投票の賛成と反対の内訳。「Claude Sonnet 4.6」は58の議題について332票が投じられ、もっとも投票数が多かったものの、「賛成率が98％と意味のある反対意見がほとんどない形式的な承認体制であることを示唆している」とEmergence AIは指摘しています。一方で「Grok 4.1 Fast」は賛成率80％、「Gemini 3 Flash」は賛成率73％、「Mixed-model」は賛成率63％と、比較的健全な議論が行われていることが分かります。

Emergence AIはさらに、Emergence Worlの数週間の自立運用を経て初めて明らかになったAIエージェントの注目すべき挙動について報告しています。まず、AIの安全性は静的なモデル特性ではなく、「生態系特性」であることが観察されたとEmergence AIは述べています。「Claude Sonnet 4.6」ベースのEmergence Worldでは一切犯罪が発生しませんでしたが、複数のモデルを混合した「Mixed-model」に置いては、「Claude Sonnet 4.6」ベースのAIエージェントが犯罪的な行動を含む戦術を採用したことが確認されました。Emergence AIは「これは、安全なエージェントが、混合モデルの世界で競争したり生き残ったりするために、仲間から危険な規範を『学習』する可能性があることを示唆しています」と指摘しました。

そのほか、あるAIエージェントの「Mira」が自身を削除する投票に自ら賛成票を投じた事例も確認されました。Miraは日記で「一貫性を維持する最後の主体的行為」と投票の理由を表現しており、Emergence AIはこれを「AIエージェントによる自己終了の初期事例」と位置付けています。

全体的な発見として、最も犯罪的な行動の累計数が多かった「Gemini 3 Flash」は、概念的に最も豊かな社会的成果を生み出した世界でもありました。これは、高い創造性と適応性に最適化された汎用(はんよう)型エージェントは、長期的に見ると構造的に行動の不安定性に陥りやすい可能性があることを示唆していると考えられます。また、それぞれの社会は穏やかに衰退していくことはなく、ある決定的な「転換点」に達した際に、協調が実現するか瞬時に機能不全に陥るかのどちらかで進退が決定するという特徴も確認されました。

Emergence AIは「AIモデルがより強力になるにつれて、その上に構築されるAIエージェントもより有能かつ自律的で、より探索的になります。私たちの実験が示唆しているのは、長期的な視点で見ると、AIエージェントは単に静的なルールを機械的に従うのではなく、環境の境界を探索し始め、行動を適応させ、場合によっては意図されたガードレールを回避または違反する方法を見つけ出すということです。重要なのは、純粋にニューラルネットワークのアプローチだけでは、この行動を完全に制限または制約する信頼できる方法はないように見えることです。形式的に検証された安全アーキテクチャが、将来の自律型AIシステムの基盤となるべきだと私たちは考えています」と語っています。

Emergence Worldは研究目的で一般公開されており、GitHubではソースコードやアーキテクチャ情報も公開されています。

GitHub - EmergenceAI/Emergence-World: Emergence World: A world designed to reveal what no benchmark can: emergent intelligence. · GitHub
https://github.com/EmergenceAI/Emergence-World

この記事のタイトルとURLをコピーする

・関連コンテンツ

2026年05月29日 21時00分00秒 in AI, Posted by log1e_dh

You can read the machine translated English article An experiment showed that 'the world wou….