「逆転裁判」でOpenAI-o1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Llama-4 Maverickの推論能力を検証する

カリフォルニア大学サンディエゴ校のAI研究者であるHao Zhang教授が率いる「Hao AI Lab」が、カプコンの人気ゲーム「逆転裁判」を使ってOpenAI-o1やGemini 2.5 Pro、Llama-4 MaverickAIなどといったAIモデルの推論能力をテストした結果を公開しています。
When Ilya Sutskever once explained why next-word prediction leads to intelligence, he made a metaphor: if you can piece together the clues and deduce the criminal’s name on the last page, you have a real understanding of the story. ????️♂️
— Hao AI Lab (@haoailab) April 15, 2025
Inspired by that idea, we turned to Ace… pic.twitter.com/sU0Y96fUDh
Hao AI Labは、OpenAIの元主任科学者であるイルヤ・サツキヴァー氏がかつて「次に現れる単語を非常に高い精度で予測できるニューラルネットワークほど理解度が高いと言えます」と発言し、たとえとして「たとえば、あなたが推理小説を読んでいて、最後のページで探偵がこう言うとします。『これから犯人の正体を明かします。その人物の名前は……』と。あなたがこの続きを予測できるなら、物語を理解していると言えますよね?」と紹介したことに触発され、実際にAIを探偵役にして真実を解き明かすことがベンチマークとして使えると考えたそうです。そこで、Hao AI Labが選んだのが「逆転裁判」でした。
シリーズ第1作の移植作である「逆転裁判 蘇る逆転」では、主人公は弁護士の成歩堂龍一となり、クライアントである被疑者を無罪にすることを目指します。そのため、プレイヤーはさまざまな場所でたくさんの証拠を集め、容疑者や証人の証言の途中で矛盾があれば「異議あり!」を申し立て、アイテムとして所有している現場の遺留品や目撃証言を突きつけなければなりません。プレイヤーにはステージごとにあらかじめライフが定められており、間違えた指摘をするとライフが減ってしまい、すべてのライフを失うとゲームオーバーとなってしまいます。
Phoenix Wright Ace Attorney is a popular visual novel known for its complex storytelling and courtroom drama. Like a detective novel, it challenges players to connect clues and evidence to expose contradictions and reveal the true culprit.
— Hao AI Lab (@haoailab) April 15, 2025
In our setup, models are tested on the… pic.twitter.com/iZ30nrtXcv
そこで、Hao AI LabはOpenAIのo1、GoogleのGemini 2.5 Pro、AnthropicのClaude 3.7 Sonnet(拡張思考モード)、MetaのLlama-4 Maverickという4モデルに「逆転裁判」をプレイさせました。Hao AI Labは、「逆転裁判」をプレイする上でのタスクを「過去の会話や証拠と相互参照して矛盾を見つける長期的な文脈での推論」「正確な根拠に基づいて誤った主張に反証するための視覚的理解」「動的に変化する事件の中で、いつ証拠を提示するかというタイミングを適切に見計る戦略的意志決定」と定義し、単なる記憶ではなく文脈を考慮した行動空間における推論が求められると述べています。
実際に4つのAIモデルに「逆転裁判」をプレイさせた様子が以下のムービー。
???? Task Analysis — Why It’s Hard:
— Hao AI Lab (@haoailab) April 15, 2025
1. Long-context Reasoning - Spot contradictions by cross-referencing with prior dialogue and evidence.
2. Visual Understanding - Identify the exact image that disproves false claims with precising grounding.
3. Strategic Decision-Making (Game… pic.twitter.com/VTjqbNLdOY
画面中に書かれている通り、上段がGemini 2.5 ProとOpenAI o1、下段がClaude 3.7 SonnetとLlama-4 Maverickです。ゲーム画面の右上に表示されている青いメーターがライフ。初代「逆転裁判」は全5話、すなわち5つの事件を解決する必要があります。

一番最初にゲームオーバーになったのはLlama-4 Maverickで、なんと1話目をクリアできませんでした。

その次にゲームオーバーになったのがClaude 3.7 Sonnet。2話目の中盤でライフが尽きてしまいました。

Gemini 2.5 ProとOpenAI o1はどちらも3話目をクリア。しかし、4話目の序盤で、Gemini 2.5 Proがゲームオーバー。

そして、4話目の終盤でOpenAI o1がゲームオーバーとなりました。

最後までゲームを進めることができたのはOpenAI o1でしたが、Hao AI Labはコストパフォーマンスを考慮した上で、Gemini 2.5 Proを高く評価しています。たとえば、1話目ではOpenAI o1はAPIの呼び出し回数こそ最も少なかったものの、コストは9.73ドル(約1400円)と4モデルの中で一番高かったそうです。また、2話目を解決するのにかかったコストは、Gemini 2.5 Proが7.89ドル(約1100円)だったのに対してOpenAI o1が45.75ドル(約6500円)と、そのコスト差はかなり大きいことがわかります。3話目では、Gemini 2.5 Proが1.25ドル(約180円)、OpenAI o1が19.27ドル(約2750円)と、15倍以上の差がついていました。
When it comes to cost-efficiency, Gemini 2.5 Pro redefines the value.⚡️
— Hao AI Lab (@haoailab) April 15, 2025
With comparable performance, it’s 6 to 15 times cheaper than O1-2024-12-17, depending on the case.???? Gemini 2.5 Pro is even slightly cheaper than GPT-4.1 ($1.25 vs $2.00 per 1M input tokens).
In our table… pic.twitter.com/V8KW6przXp
ただし、Gemini 2.5 Proはすべての画像を258トークンとして扱う方式を採用しているため、実際のコストはもう少し高くなる可能性があるとHao AI Labは述べています。
なお、Hao AI Labは他にもさまざまなゲームでAIのベンチマークを行っており、Hugging Faceでその結果を公開しています。
Game Arena Bench - a Hugging Face Space by lmgame
https://huggingface.co/spaces/lmgame/game_arena_bench
・関連記事
Claude 3.7 Sonnetにポケモンをプレイさせる「ClaudePlaysPokemon」をAnthropicがTwitchで配信開始、推論しながらの超ゆっくりプレイを皆が見守る - GIGAZINE
「Claude 3.7 Sonnet」と「Claude Code」が登場、OpenAI o1やDeepSeek-R1を超える性能で「ポケモン」のジムリーダーを3人倒すことに成功 - GIGAZINE
機械学習で「ポケモン」を攻略する「Pokémon RL Edition」、DeepSeek-V3の6万分の1のパラメーター規模でクリアを実現 - GIGAZINE
Microsoftがリアルタイムでゲームを生成するAIモデル「WHAMM」をリリース、「Quake II」を使ったデモもプレイ可能 - GIGAZINE
・関連コンテンツ
in ソフトウェア, 動画, ゲーム, Posted by log1i_yk
You can read the machine translated English article Testing the inference capabilities of Op….