OpenAIのo3モデルが数学の超難問データセット「FrontierMath」で25.2%のスコアを獲得した衝撃を数学者が語る
インペリアル・カレッジ・ロンドンで純粋数学の教授を務める数学者のケビン・バザード氏が、OpenAIのo3モデルがFrontierMath問題データセットで25.2%のスコアを獲得したことについて解説するブログ記事を投稿しました。
Can AI do maths yet? Thoughts from a mathematician. | Xena
https://xenaproject.wordpress.com/2024/12/22/can-ai-do-maths-yet-thoughts-from-a-mathematician/
2024年12月20日に、OpenAIは新たな推論モデル「o3」シリーズを発表しました。OpenAIはo3モデルについて「これまで開発した中で最も高度な推論能力を持つ」と述べ、2025年の公開に向けて準備を進めています。
OpenAIが推論能力を大幅に強化した「o3」シリーズを発表、 推論の中でOpenAIの安全ポリシーについて「再考」する仕組みを導入 - GIGAZINE

o3モデルはFrontierMathという問題データセットで25.2%のスコアを獲得したことが明らかになっています。FrontierMathは数百個の難しい数学の問題のデータセットで、問題そのものだけでなくデータセット全体の問題数なども秘密であり、AIが事前に問題をトレーニングしないよう注意深く設計されています。
FrontierMathの全ての問題は計算問題で、「証明せよ」などの形式の問題は含まれていないとのこと。公開されている5つのサンプル問題では答えが全て正の整数となっており、その他の問題についても「自動的に検証できる明確で計算可能な答えがある」とされています。問題の難易度はかなり高く、数学者のバザード氏でもサンプル問題のうち解けたのは2問だけで、別の1問については「取り組めば解けるかも」と思えたものの、残りの2問は「解けない」と思ったそうです。
FrontierMathの論文にはフィールズ賞受賞者などの著名な数学者による問題の難易度評価が記載されていますが、「極めて難しい」とコメントした上で、それぞれの問題の分野の専門家でなくては解答できないことを示唆しています。実際、バザード氏が解けた2問はバザード氏の専門分野の問題でした。
なお、実際の数学者は計算ではなく証明や証明のためのアイデアを考え出すことにほとんどの時間を使用するため、「計算で数値的な答えを出すことは独自の証明を思いつくことと完全に異なる」として数学力の計測に不適だとする数学者も存在します。しかし証明を採点するのはコストがかかるため、モデルが提出した答えが正答と一致するかどうかを確認するだけで採点できる計算問題が採用されているとのこと。
そうしたFrontierMathのテストに対し、OpenAIのo3モデルが25.2%ものスコアを獲得したことについてバザード氏は「衝撃を受けた」と述べました。
これまでAIは優秀な高校生が解くような「数学オリンピック形式」を得意としていることが明らかになっており、バザード氏は「多くの典型問題が出題される」という点で似ている大学の学部生レベルの数学の問題をAIが解けるようになることは疑っていませんでした。しかし、典型問題のレベルを超えて博士課程の初期レベルの問題に対し革新的なアイデアで対応するレベルの数学力をAIが獲得していることに対し、バザード氏は「かなり大きな飛躍が起きたように見える」とコメントしています。
ただし、FrontierMathを組み上げたEpoch AIのエリオット・グレイザー氏はデータセット内の問題の25%は数学オリンピック形式だと発言しています。公開されている5つのサンプル問題はいずれも数学オリンピックの形式とは全く異なるため、バザード氏はo3モデルがFrontierMathで25.2%のスコアを獲得したと聞いて非常に興奮したものの、25%が数学オリンピック形式と知って興奮は収まったとのこと。「今後、AIがFrontierMathで50%のスコアを獲得することを楽しみにしている」とバザード氏はコメントを残しました。
Comment
byu/MetaKnowing from discussion
inOpenAI
現在、AIの進歩は急速に進んでいますが、まだまだ道のりは遠く、やるべき事は山ほどあります。バザード氏はAIが「この定理を正しく証明し、その証明がなぜ機能するのかを人間が理解できる方法で説明せよ」というレベルの問題に対応できるほどの数学力を身につけることを期待しているとブログを締めくくりました。
・関連記事
Microsoftが軽量なのにGPT-4oを圧倒的に上回る数学性能を発揮するAIモデル「Phi-4」をリリース - GIGAZINE
AppleのAI研究者らが「今のAI言語モデルは算数の文章題への推論能力が小学生未満」と研究結果を発表 - GIGAZINE
数学オリンピックの問題で銀メダルレベルのスコアを残すAIを開発したとGoogle DeepMindが発表 - GIGAZINE
OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を見渡して状況判断」「数学の解き方を教える」「AI同士で会話して作曲」など多様な操作を実行可能 - GIGAZINE
数学を解ける言語モデル「Qwen2-Math」が登場、GPT-4o超えの数学性能 - GIGAZINE
・関連コンテンツ
in メモ, ソフトウェア, サイエンス, Posted by log1d_ts
You can read the machine translated English article Mathematicians talk about the shock of O….