「Balatro」をどのAIが最も上手くプレイできるのかが分かるベンチマーク「BalatroBench」

ポーカー×ローグライクゲームの「Balatro」をAIにプレイさせ、どれが一番優れたスコアを獲得するのかでモデルの性能を測るベンチマーク「BalatroBench」が公開されています。
GitHub - coder/balatrobench: Benchmark LLMs' strategic performance in Balatro ????
https://github.com/coder/balatrobench
Balatroはターン制で進むため、モデルごとに異なる処理速度に左右されることなく一貫した性能評価が可能です。さらに、BalatroBenchのリーダーボードに登録する際は指定されたシードでの結果を登録する必要があるため、正確な比較がしやすいのが特徴です。
ハマった時の快感が心地よくてついつい何度もプレイしたくなるポーカー+ローグライクで濃厚デッキビルディングと化すゲーム「Balatro」プレイレビュー - GIGAZINE

リーダーボード登録時のルールは「初期(レッド)デッキ」「初期難易度」「シード固定(シード値AAAAA、BBBBB、CCCCC、DDDDD、EEEEE)で各シード3回プレイ」などがあります。
そして、実際のスコアは以下の通り。
BalatroBench
https://balatrobench.com/

ページを下にスクロールすると細かい数値を確認できます。以下の表の列は、左から「番号(#)」「モデル」「ベンダー」「平均到達ラウンド」「現在のゲームで実行できるツール呼び出しを含む応答」「現在のゲームでは実行できないツール呼び出しを含む応答」「有効なツール呼び出しを含まない応答」「ツール呼び出し当たりの平均入力トークン数」「ツール呼び出し当たりの平均出力トークン数」「ツール呼び出し当たりの平均時間」「ツール呼び出し当たりの平均コスト」を示しています。

行をクリックするとモデルごとの詳細情報を確認できます。平均到達ラウンドが最も高かったモデル、すなわち「最もBalatroが得意なモデル」はgemini-3-pro-previewで、15回のプレイでなんと9回も24ラウンド(最終ラウンド)をクリアしたとのことです。

リーダーボード上で最も成績の悪いモデルはmistral-large-2512で、ほとんどの試行で1ラウンド目の敗退。最も良い回でも7ラウンド目が限度でした。

ソーシャルサイトのHacker Newsでは「Googleには、2004年に開始されたGoogle Booksプロジェクトからスキャンされた数百万冊の書籍のライブラリがあります。そこにはさまざまな伝統的なカードゲームの効果的なプレイ方法に関する書籍が多数含まれており、そのデータセットでトレーニングされたLLMは、テキストの説明からBalatroのプレイ方法を一般化して理解できるのではと考えられます」などの意見が寄せられました。
・関連記事
Googleが人狼ゲームとポーカーをAIベンチマーク「Game Arena」に採用 - GIGAZINE
あらゆる画像生成AIの性能を測定できるベンチマーク「ImagenWorld」登場、画像生成や画像編集の精度を評価し苦手分野を特定可能 - GIGAZINE
AIの現実世界での能力を測定するベンチマーク「GDPval」をOpenAIが開発、弁護士や映画監督など現実の職業としての性能を測定可能 - GIGAZINE
AIのゲーム性能を測定するベンチマークプラットフォーム「Game Arena」をGoogleが公開 - GIGAZINE
・関連コンテンツ
in AI, ゲーム, Posted by log1p_kr
You can read the machine translated English article 'BalatroBench' is a benchmark that shows….







