「人間には簡単だがAIには難しい」とされるゲーム課題を実際に無料でプレイできる「ARC Prize - Play the Game」

AIの抽象的な推論能力を測定するために設計されたベンチマーク「ARC(Abstraction and Reasoning Corpus)-AGI」の新バージョンとなる「ARC-AGI-2」がリリースされました。ARC-AGI-2は人間にとって簡単だがAIにとって難しい課題で構成されており、実際にARC-AGI-2に採用されている課題がウェブブラウザでプレイできます。
ARC Prize - Play the Game
https://arcprize.org/play
Announcing ARC-AGI-2 and ARC Prize 2025
https://arcprize.org/blog/announcing-arc-agi-2-and-arc-prize-2025
ARC Prizeは、データサイエンスと人工知能に関する世界最大級のオンラインコミュニティプラットフォーム「Kaggle」で開催される競技で、参加者は約50ドル(約7500円)相当の計算リソースという制限の中で、効率的かつ効果的なソリューションを開発することが求められます。賞金は、85%以上のスコアを達成した最初のチームにはグランプリとして70万ドル(約1億500万円)が、最高得点を達成したチームにはトップスコア賞として7万5000ドル(約1130万円)が授与されます。
人間に匹敵する知能を持った汎用人工知能を開発した研究者に総額100万ドルの賞金を授与するコンテスト「ARC Prize」が開催 - GIGAZINE

課題は一般に公開されており、実際に解いて内容を確認することができます。プレイページにアクセスして、「Start」をクリック。

表示される課題は日替わり。左側にある「EXAMPLES」のInput(入力)に対するOutput(出力)を参考に、右側の「TEST」で適切なOutputを回答します。

まずはグリッドを入力し、「Resize」をクリック。

「Copy from Input」をクリックすれば、Inputの内容をOutputにそのままコピーできます。

回答したら、「Submit solution」をクリック。

見事正解。

課題は「Puzzle ID」が表示されている横のプルダウンメニューを選択することで、他の課題に挑戦することも可能。課題は難度ごとに分けられています。

なお、ARC-AGI-2は120の公開評価タスク、120の準プライベート評価タスク、120のプライベート評価タスク、そして1000のトレーニングタスクで構成されています。ARC-AGI-2の核心は、単なる記憶力や既存知識の応用ではなく、新しい状況に適応する「流動的知性」の測定にあり、記号の意味解釈、複数ルールの同時適用、文脈に応じたルールの適切な適用などを特定するような課題が設定されています。すべての課題は少なくとも2人の人間が2回以内の試行で解決できることが確認されていますが、純粋な大規模言語モデルは0%のスコア、最先端の推論AIシステムでさえも数%のスコアしか達成できていません。
また、ARC-AGI-2の独自性は単に課題を解決できるかどうかだけでなく、その効率性も重視する点にあります。実際、ARC Prizeでは、「人間にとって簡単だがAIにとって難しい課題のギャップがゼロになったとき、AGIが達成される」と定義されています。そのため、タスク解決のコスト効率も測定され、実験の結果から得られた1タスクあたり約17ドル(約2500円)という人間の計算コストとも比較されます。
・関連記事
AIに「もっといいコードを書いて」と繰り返し要求するとコードの実行速度は向上するがバグが増えるという報告 - GIGAZINE
DeepMindが開発したAIの「AlphaCode」がプログラミングコンテストで「平均」評価を獲得 - GIGAZINE
GPT-4oがAIベンチマークのARC-AGIで50%のスコアに到達、これまでの最高記録である34%を大幅に更新 - GIGAZINE
OpenAIがAIベンチマーク「SWE-Lancer」を公開、フリーランスエンジニアに100万ドルで依頼するレベルのタスクをこなせるか測定 - GIGAZINE
・関連コンテンツ
in レビュー, ソフトウェア, ウェブアプリ, Posted by log1i_yk
You can read the machine translated English article 'ARC Prize - Play the Game' allows you t….