2025年04月01日 21時30分メモ

AIの知能評価テストには人間にとって重要な「質問をする能力」の評価項目がないという指摘

近年は世界各国の企業や研究機関によって精度の高いAIが開発され、そのパフォーマンスを測定するためのベンチマークやテストも多数開発されています。アメリカのノースイースタン大学で歴史学教授を務めるダン・コーエン氏は、実際にAIのパフォーマンスを測定するテストを人力で解いてみた経験を踏まえ、AI向けのテストは「質問をする能力」という人間の重要な側面を見逃していると指摘しました。

Asking Good Questions Is Harder Than Giving Great Answers
https://newsletter.dancohen.org/archive/asking-good-questions-is-harder-than-giving-great-answers/

コーエン氏は先日、Humanity's Last ExamというAIを対象にしたテストのうち、自身の専門分野である「歴史」のセクションを自力で解いてみました。Humanity's Last Examを開発した研究者らによると、AIがこのテストで「A」のスコアを獲得した時、そのAIは人間に取って代わる能力を持っていると判定できるとのこと。

残念ながらコーエン氏は、Humanity's Last Examの歴史セクションで「F」を獲得してしまったそうです。コーエン氏によると、残念ながら歴史セクションのうち正答できた問題はわずか1問だったそうで、これは歴史学の博士号を持っている人間にとってかなり恥ずかしかったと認めています。

しかしコーエン氏は、実際にHumanity's Last Examに取り組んだことで見えてきた問題点もあると語っています。まず、Humanity's Last Examには3000以上の問題がありますが、そのうち数学に関するものが1200問以上であるのに対し、歴史に関する問題はわずか16問しかありません。また、16問あった歴史問題のうち4問は「過去にあった海戦」に関するものだったそうで、軍艦などへの造詣が薄いコーエン氏が苦戦する理由のひとつとなった模様。

また、他の問題についても「紆余(うよ)曲折を経た長い物語の旅路があり、これは明らかにAIを混乱させようとしたものです。これらの質問は確かに、私を混乱させるのには成功しました」と述べています。

こうしたHumanity's Last Examの問題傾向は、暗黙のうちに「知能」を「複雑な質問に対する正しい答えを提供する能力」と置き換えていると言えます。AI開発企業はこうしたパフォーマンステストを用いて、「新たな大規模言語モデルの性能が前モデルより○％向上した」「新たなAIが博士号クラスのテストで高い正答率を記録した」と主張しているわけです。

コーエン氏は、これまでのAIがさまざまなタスクやテストで非常に優れたパフォーマンスを発揮しており、それが現実世界のタスクにも応用されていることを認めています。実際にコーエン氏は、自分が館長を務める図書館のデジタルチームが「私よりもはるかに有能で、すべての主要なマルチモーダルAIサービスに抽象化されたインターフェース」を作成し、優れた結果をもたらしていると語っています。

また、コーエン氏の歴史家の仲間であるベンジャミン・ブリーン氏も、最新のAIが一部の分野で博士課程学生に匹敵する能力を示し、特に翻訳や転写といったタスクでは多くの博士課程学生より優れていると報告しています。特に歴史文書の手書き文字を認識するAIの能力は、歴史研究に大きな影響を及ぼす可能性があるとのことです。

このようにコーエン氏はAIの能力を認めているものの、博士号レベルの仕事で必要なのは「正しい答えを得ること」だけでなく、「ユニークな新しい質問をすること」も同様に重要なのだと主張しています。

コーエン氏は、「最終的には答えが欲しいかもしれませんが、私たちは新たな探求、新たな関心分野から始めなくてはなりません。過去と現在をよりよく理解するための道のりで、歴史における優れた質問は、最終的に碑文の正確な翻訳や海戦の起きた場所の知識を必要とするかもしれません。しかしその前に、そもそもなぜ現代の誰かがそのような文書や出来事に関心を持つのか、それらがどのように私たちの世界を形作ってきたのかを想像しなくてはなりません。これはもっと大きな課題です」と述べています。

たとえばコーエン氏が最近読んだ「Listening in Paris」という本では、「なぜオーケストラの聴衆は静かになったのだろうか？」という単純な疑問から出発しています。現代社会では、オーケストラのコンサートを聴く際は聴衆が静かになりますが、過去に目を向けると必ずしもそうではなく、時には観客がコンサート中に騒ぐような時期もあったそうです。こうした何気ない疑問を持つこと自体が、研究において重要だとコーエン氏は主張しました。