これまでで最も難しいAIテスト「人類最後の試験」リリース、3000の多肢選択問題と短答式の質問で構成
AI企業のScale AIおよびAI研究組織のCenter for AI Safety(CAIS)が共同で、AIの知識の限界をテストするために設計したベンチマーク「人類最後の試験(Humanity's Last Exam)」を公開しました。既存の主要モデルのうち、正解率10%を超えるモデルは存在しなかったとのことです。
Scale AI and CAIS Unveil Results of Humanity’s Last Exam
https://scale.com/blog/humanitys-last-exam-results
Humanity's Last Exam - Publication Ready Humanity's Last Exam.pdf
(PDFファイル)https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Publication%20Ready%20Humanity%27s%20Last%20Exam.pdf
A Test So Hard No AI System Can Pass It — Yet - The New York Times
https://www.nytimes.com/2025/01/23/technology/ai-test-humanitys-last-exam.html
「人類最後の試験」は、数学や人文科学、自然科学など幅広い分野の問題を詰め込んだベンチマークです。各問題は大学教授や著名な数学者などから出題されたものを厳選したものばかりで、どれも答えは存在するものの解くのが非常に難しい問題です。問題を提供したカリフォルニア大学バークレー校の素粒子理論の博士研究員、ケビン・チョウ氏は「採用された問題はどれも大学院試験で出題される範囲のものでした」と述べています。
生態学の分野では、「アマツバメ目のハチドリは、尾羽下制筋の広がった交差状の腱膜の尾側外側部分に埋め込まれた、左右対になった楕円形の種子骨を持つ。この種子骨によって支えられている腱ペアはいくつあるか?数字で答えよ」などの問題が出題されます。
基本的には多肢選択式および短答式で答える問題で、全部で3000問あります。Scale AIとCAISがこのベンチマークをOpenAIの「GPT-4o」やAnthropicの「Claude 3.5 Sonnet」、Googleの「Gemini 1.5 Pro」など複数のAIモデルに出題したところ、正解率10%を超えるモデルはなく、最高スコアは高い推論能力を備えたOpenAI「o1」の8.3%だったとのことです。
既存のテストでは高得点を取るような優れたモデルが撃沈したことに対し、CAISの共同設立者でエグゼクティブ・ディレクターのダン・ヘンドリクス氏は「モデルの進歩の速さを予測することはできない」と言及。今後1年の間に正解率50%を上回るモデルが出てくるだろうとの見方を示しました。
このようなベンチマークを作成した理由には、AIの進歩速度が早すぎて既存のベンチマークでは正確性を測れないことが背景にあります。例えば、ヘンドリクス氏が2021年に提案して広く使われるようになったMATHベンチマークだと、発表当時は10%を超えるモデルは存在しなかったのに、3年後には90%に到達するモデルが現れています。
中国のAI企業DeepSeekがOpenAI o1に匹敵する推論AIモデル「DeepSeek-R1-Lite-Preview」公開、オープンソース化する計画も - GIGAZINE
Scale AIのリサーチ・ディレクターであるサマー・ユエ氏は、「データセットを研究コミュニティに公開し、既存のモデルの限界を探り続けながらさらに深く掘り下げ、新しいAIモデルを評価する予定です。この『人類最後の試験』で、究極のテストになることを目指して細心の注意を払って設計し、世界最先端のモデルに挑戦します」と述べました。
・関連記事
MetaがAIモデル「Llama 3.3」をリリース、70BモデルでLlama 3.1の405Bモデルに匹敵する性能を発揮 - GIGAZINE
Hugging FaceのAIモデルをテストする「Open LLM Leaderboard v2」で中国Qwenのモデルがトップに - GIGAZINE
AlibabaのQwenチームがOpenAI o1に匹敵する推論モデル「QwQ-32B-Preview」を発表、数学や科学的推論において優れた性能を発揮 - GIGAZINE
AppleのAI研究者らが「今のAI言語モデルは算数の文章題への推論能力が小学生未満」と研究結果を発表 - GIGAZINE
「AIは人間より高性能だが一部のテストでは人間の方が優秀」「高性能AIの学習コストは数百億円」などをまとめたスタンフォード大学のレポート「AI Index Report 2024」が公開される - GIGAZINE
・関連コンテンツ
in Posted by log1p_kr
You can read the machine translated English article The most difficult AI test ever, 'The La….