GPT-4oがAIベンチマークのARC-AGIで50%のスコアに到達、これまでの最高記録である34%を大幅に更新

AI研究者のライアン・グリーンブラット氏が、AIの一般的な推論能力を評価する指標の「ARC-AGI」において、GPT-4oを工夫して使用することで50%という正答率を達成できたと発表しました。
Getting 50% (SoTA) on ARC-AGI with GPT-4o
https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt

ARC-AGIでは下図のようにいくつかの例と問題が用意されます。例からルールを推測して正しく問題の図に対応する結果を出力できればOK。人間がこのタスクを行うと子どもであっても85%から100%のスコアを出すことができますが、これまでAIが出したARC-AGIの最高スコアは34%であり、数多くのベンチマークの中でも特に人間との差が顕著でした。

上記の問題はシンプルなため特に工夫せずともGPT-4oなら正解することができますが、実際の問題は下図のように複雑です。

グリーンブラット氏のアイデアはGPT-4oに問題から解答を生み出すPythonのプログラムを大量に生成させ、全ての例に適用してみて有望そうなプログラムを使用するというシンプルなもの。実際にはGPT-4oに問題を読み取らせるための表現方法の工夫や、推論を段階的に注意深く進めさせるための具体例を示した数ショットのプロンプト、有望な候補をさらに修正するためのプロンプトなどが必要で、50%のスコアを達成するまでに6日間かかったとのことです。
50%のスコアを出すために実際に使用したコードはGitHubで公開されています。なおグリーンブラット氏によるとARC-AGIのトレーニング用データとテスト用のデータでは難易度が異なっており、トレーニング用のデータの中から一部を抜き出してテストに使用することで72%のスコアを達成できたとのこと。
グリーンブラット氏は6日の間にARC-AGIを解くためのプロンプトを何回も修正してバージョンアップしており、最初のV0ではPythonプログラムを1024個生成させて25%の正答率だったのが、最終バージョンのV2では2048個のプログラムを生成して34%の正答率になりました。
全てのバージョンを組み合わせて使用することで正答率を37%まで向上させ、さらに有望な候補を修正するステップを追加することで50%に到達するとのこと。なお、生成するプログラムの数を増やすことで正答率が向上することが確認できており、グリーンブラット氏は1つの問題当たり200万個のプログラムを作成すれば正答率が70%に到達すると推測しています。

2024年11月10日まで、ARC-AGIで85%以上のスコアを出すオープンモデルのAIを開発した人に最大50万ドル(約7800万円)の賞金が出る「ARC Prize」が開催中ですが、今回グリーンブラット氏はクローズドなGPT-4oを使用しているほか、推論時に過大なコンピューティングリソースを消費しているためARC Prizeの対象ではないとのことです。
・関連記事
IQ100超えを達成したAIモデルのClaude 3は「いい性格」を持つようにトレーニングされている - GIGAZINE
「AI写真コンテスト」で「人間が撮影した本物の写真」が入賞する珍事が発生 - GIGAZINE
「AIは人間より高性能だが一部のテストでは人間の方が優秀」「高性能AIの学習コストは数百億円」などをまとめたスタンフォード大学のレポート「AI Index Report 2024」が公開される - GIGAZINE
AIに組み込まれた検閲による命令拒否を打ち消してあらゆる種類の質問に応答できるようにする「アブリテレーション」とは? - GIGAZINE
Metaはどのようにして大規模なAIを稼働させるインフラをメンテナンスしているのか? - GIGAZINE
・関連コンテンツ
in ソフトウェア, Posted by log1d_ts
You can read the machine translated English article GPT-4o reaches 50% score on AI benchmark….