AIモデルが爆速で賢くなっているのでテスト方法が追いついていない
近年、医療や科学などさまざまな分野に応用できるAIが増えており、人間を上回る能力を発揮するものも少なくはありません。こうしたAIの実力は性能を定量化する評価試験で測られているのですが、評価試験を作る速度がAIの進歩に追いついていないとして、TIME誌が現状について解説しています。
AI Models Are Getting Smarter. New Tests Are Racing to Catch Up | TIME
https://time.com/7203729/ai-evaluations-safety/
生成AIの黎明(れいめい)期には、画像の分類やゲームのプレイなど特定のタスクにおけるシステムのパフォーマンスを評価することで能力が測定されており、新しい評価試験が登場してからAIがそれを解くまでの期間は数年にわたることが当たり前でした。例えば、2010年に登場した「ImageNet Large Scale Visual Recognition Challenge」という試験でAIが人間を超えるまでには5年かかっています。
ところが、評価試験の導入からクリアまでのギャップは、年々大幅に縮小しているといいます。
2018年に登場した「GLUE」という評価試験は、文脈から代名詞の正しい意味を判断するタスクを測ることで自然言語を理解するAIの能力をテストするというものでしたが、登場から1年後には解決されました。より難しいバージョンであるSuperGLUEが2019年に作成されたものの、2年以内にAIは人間のパフォーマンスに匹敵することができるようになりました。
正答率も驚くほど高く、哲学、医学、法律など幅広い分野にまたがる約1万6000の多肢選択問題で構成された評価試験「Measuring Massive Multitask Language Understanding(MMLU)」に至っては、2024年5月にリリースされたOpenAIの「GPT-4o」モデルが88%の正答率に達成し、同社の最新モデルであるo1は92.3%を記録しています。
このように、近年のAIが既存の評価試験で定期的にトップスコアを獲得していることから、システムがどれだけ速く向上しているかを判断するのが難しくなっているという大きな課題が生まれつつあります。加えて、評価試験はAIの基礎的な能力を測るだけなので、現実的なシナリオで評価通りの実力を発揮できるのかという疑問もあるといいます。こうした評価試験を作ることについて、AIの安全性を研究するマリウス・ホブハーン氏は「驚くほど難しい」と指摘します。
こうした課題に対応するため、より洗練された新しい評価試験が構築されつつあります。
Epoch AIという研究機関が設計したFrontierMathという評価試験は、一流の数学者たちが考え出した約300の数学の問題で構成されていて、国際数学オリンピックのレベルから「非常に才能のある高校生なら理論的に解けるレベル」までさまざまな難易度があります。既存の数学試験に比べて非常に難しいことで知られていますが、OpenAIのo3モデルはすでに25.2%のスコアを獲得していて、数学者から驚きの声が上がったといいます。
OpenAIのo3モデルが数学の超難問データセット「FrontierMath」で25.2%のスコアを獲得した衝撃を数学者が語る - GIGAZINE
また、Scale AIが作成中の「人類最後の試験(Humanity’s Last Exam)」という不吉な名前の評価試験もあります。この試験は、物理学、生物学、電気工学などの領域もカバーしながら、Frontiermathの20倍から50倍の問題数を含むことが目指されていて、2025年前半までに登場する予定。
ただ、このような評価試験を設計してもなお、いずれAIに高いスコアを獲得されるのは目に見えている上に、評価試験を開発するのにもコストがかかるといいます。Epoch AIのタメイ・ベシログル氏は「AIの評価は決して安くはなく、開発のコストは評価の実施コストをはるかに上回ります」と指摘。
TIMEは「AIモデルの急速な進歩に伴い、評価もそれに追いつこうと競争していますが、効果的な評価試験を設計するのは依然として困難で、コストがかかり、危険な能力を早期に発見するという評価試験の重要性に比べて資金が不足しています。主要な研究所が数カ月ごとに高性能なモデルを発表する中、モデルの能力を評価するための新しいテストの必要性はかつてないほど高まっています」と述べました。
・関連記事
科学論文の調査に特化したAIモデル「OpenScholar」がベンチマークでGPT-4oを上回る、科学研究の大幅な効率化に期待 - GIGAZINE
OpenAIのCEOが「o2が博士号レベルのベンチマークで105%のスコアを達成」とSNSに投稿、次期AIモデルはGPT-4oでも53.6%しか記録できなかった高難度テストで約2倍のスコアを達成か - GIGAZINE
GPT-4oがAIベンチマークのARC-AGIで50%のスコアに到達、これまでの最高記録である34%を大幅に更新 - GIGAZINE
Metaがテキストベースのプロンプトに視覚情報ベースで回答するAIエージェントのベンチマーク「OpenEQA」をリリース - GIGAZINE
新たに「Llama 2 70B」と「Stable Diffusion XL」が追加されたAIベンチマークテスト「MLPerf Inference v4.0」の結果が発表される - GIGAZINE
・関連コンテンツ
in ソフトウェア, Posted by log1p_kr
You can read the machine translated English article AI models are getting smarter so quickly….