2025年02月05日 10時40分ソフトウェア

最高でも回答精度9％程度だった「人類最後の試験」でOpenAIのDeep researchが26％以上を記録

AIの性能を定量化する評価試験のうち「これまでで最も難しい」とされる「人類最後の試験(Humanity's Last Exam)」について、OpenAIのAIエージェント「Deep research」が早くも26.6％という高いスコアを記録したことがわかりました。試験の公開から10日もたたずに最高スコアが183％増加したことになります。

OpenAI's Deep Research smashes records for the world's hardest AI exam, with ChatGPT o3-mini and DeepSeek left in its wake | TechRadar
https://www.techradar.com/computing/artificial-intelligence/openais-deep-research-smashes-records-for-the-worlds-hardest-ai-exam-with-chatgpt-o3-mini-and-deepseek-left-in-its-wake

「人類最後の試験」は数学や人文科学、自然科学など幅広い分野の専門的な問題を詰め込んだベンチマークで、大学教授や著名な数学者などから出題された問題を厳選したものです。公開前のテストでは、高い推論能力を備えたOpenAIの当時の最新モデル「o1」でさえ、8.3％のスコアしか獲得できなかったと伝えられていました。

これまでで最も難しいAIテスト「人類最後の試験」リリース、3000の多肢選択問題と短答式の質問で構成 - GIGAZINE

ところが、人類最後の試験が公開されて以降、多数のモデルが上記を上回るスコアを記録し始めました。例えば「o1」に匹敵する性能を備えたDeepSeekの推論モデル「R1」は9.4％を達成したほか、「R1」リリースの約2週間後にOpenAIが出した推論モデル「o3-mini」は10.5％、推論のレベルを高く設定した「o3-mini-high」では13％の精度を記録しています。

これに続き、新たにOpenAIのAIエージェント「Deep research」が26.6％のスコアをたたき出し、競合を圧倒しました。

Deep researchはインターネット上に存在する情報を検索して推論を行うAIエージェントで、あらかじめたたき込まれた情報だけで処理する既存のチャットサービスとは一線を画すものです。

OpenAIがChatGPTにオンライン上の情報を収集させる「Deep research」機能を搭載すると発表 - GIGAZINE

26.6％というスコアはOpenAIが発表したものですが、テクノロジー系メディアのTechRadarは「検索機能があるAIとないAIを比較することになるため、若干不公平」と指摘しています。ただし、登場後間もない評価試験で既存のモデルより高いスコアが記録されたことは驚くべきことであり、AIの進歩の早さが伺えます。

一方で、新しい評価試験があまりにも早く解かれてしまうと、AIの性能を定量的に評価するという本来の目的が果たせなくなってしまう恐れがあります。評価試験を作るにもコストがかかり、コストをかけて今回のように「人類最後」とまで銘打ってリリースした試験が簡単にクリアされてしまうと、AIの性能と評価試験の難易度のギャップがさらに広がりかねません。

この点についてニュースサイトのTIMEは「評価試験を作る速度がAIの進歩に追いついていない」と指摘し、「効果的な評価試験を設計するのは依然として困難で、コストがかかり、危険な能力を早期に発見するという評価試験の重要性に比べて資金が不足しています。主要な研究所が数カ月ごとに高性能なモデルを発表する中、モデルの能力を評価するための新しいテストの必要性はかつてないほど高まっています」と言及しています。

AIモデルが爆速で賢くなっているのでテスト方法が追いついていない - GIGAZINE

この記事のタイトルとURLをコピーする

・関連コンテンツ

2025年02月05日 10時40分00秒 in ソフトウェア, Posted by log1p_kr

You can read the machine translated English article In the 'final test of humanity,' where t….