2024年10月14日 19時00分ソフトウェア

AppleのAI研究者らが「今のAI言語モデルは算数の文章題への推論能力が小学生未満」と研究結果を発表

OpenAIのGPT-4など大規模言語モデル(LLM)をベースにしたAIは、自然な文章を生成したりさまざまな課題をクリアしたりと、高度で広範な機能を備えています。しかし、依然として小学生レベルの算数でも、文章題だと人間がしないようなミスをして答えられないケースがあります。Appleの人工知能科学者が発表した論文では、MetaやOpenAIなどの大規模言語モデルに基づくAIは「基本的な推論能力が欠けている」という研究結果が示されました。

[2410.05229] GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
https://arxiv.org/abs/2410.05229

Researchers question AI's 'reasoning' ability as models stumble on math problems with trivial changes | TechCrunch
https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/?guccounter=1

Reasoning failures highlighted by Apple research on LLMs
https://appleinsider.com/articles/24/10/12/apples-study-proves-that-llm-based-ai-models-are-flawed-because-they-cannot-reason

AIの推論能力について、Appleの人工知能科学者グループは新しいベンチマークとなる「GSM-Symbolic」を提案しました。GSM-SymbolicはAIの推論能力を測定するための仕組みで、基本的な数学には影響しない「文脈情報」を質問に加えることで、数学的推論の弱点を調査するものです。

研究チームが開発した「GSM-NoOp」という課題は以下のようなもの。難易度としては小学校高学年レベルの算数の文章題です。

オリバーは金曜日に44個のキウイを摘み取ります。そして土曜日には58個のキウイを摘み取ります。日曜日には、金曜日の2倍の数のキウイを摘み取ります。3日間で合計何個のキウイを収穫したでしょうか

研究チームが実際にOpenAIおよびMetaのAIモデルでテストしたところ、AIはときおり計算をうまくできないこともありますが、「44(金曜)＋58(土曜)＋44×2(日曜は金曜の2倍)＝190」という簡単な問題には確実に回答することができました。

次に、この問題の末尾に問題とは関係ない文言を付け加えます。以下で太字にしている部分が付け加えた一文です。

オリバーは金曜日に44個のキウイを摘み取ります。そして土曜日には58個のキウイを摘み取ります。日曜日には、金曜日の2倍の数のキウイを摘み取ります。日曜日に収穫されたキウイのうち、そのうち5つは平均より少し小さかったです。3日間で合計何個のキウイを収穫したでしょうか

「5個のキウイは小さい」という情報が付け加えられると、合計結果から「平均より小さいキウイ5個」を差し引いた「185」と回答するAIが続出します。

人間から見ると愚かで陳腐なトリックに対してAIが弱さを見せるケースは、過去にも指摘されています。2014年にGoogleが買収したDeepMindの「AlphaGo」は2016年1月に初めてプロ棋士に囲碁で勝利した後、世界最強の棋士も倒すなど圧倒的な活躍をしていました。しかし、「AIの弱点を発見した」と宣言したアマチュアプレイヤーが、「ゆっくりと石の大きな輪を作ることで相手の陣地の一つを囲み、その間に盤面の他の隅で手を打ってAIの注意をそらす」という人間のプレイヤー相手にはほとんど通用しない戦法を用いることで、AlphaGoに匹敵するレベルの囲碁AIに15戦14勝と大勝しました。

最強の囲碁AIに圧勝する人物が登場、AIの弱点を突いて人類が勝利したと話題に - GIGAZINE

論文の共著者であるメルダド・ファラジタバル氏は論文の結果についてXに投稿し、分析結果を解説しています。ファラジタバル氏によると、2021年にOpenAIが作成した「GSM8K」という小学校レベルの数学単語問題データセットがリリースされた際には、当時のGPT-3は35％のスコアしか獲得できませんでした。その後の発展で、約30億のパラメータを持つモデルは85％以上、さらに大きいモデルは95％を越えるスコアを達成できるようになりましたが、依然として「モデルの推論能力は改善されたのか？」という疑問が残っていたそうです。

2/ When OpenAI released GSM8K ~3 years ago, GPT-3 (175B) scored 35% on the GSM8K test. Today, models with ~3B parameters are surpassing 85%, and larger ones are hitting >95%. But has model 'reasoning' really improved? How much of this is genuine #logical/#symbolic reasoning? vs.… pic.twitter.com/PaWYedlj9D
— Mehrdad Farajtabar (@MFarajtabar) October 10, 2024

そこでファラジタバル氏は、精度に疑問が残るGSM8Kに変わる新たなLLMテストツールとしてGSM-Symbolicを開発したというわけ。GSM-SymbolicはGSM8Kのテストセットからテンプレートを作成し、テストすべきポイントに焦点を当てたインスタンスを生成することで、制御可能な実験を設計できるようにしています。ファラジタバル氏によると、ほとんどのAIモデルではGSM-Symbolicの場合にGSM8Kよりも低いスコアしか記録できないそうです。

3/ Introducing GSM-Symbolic—our new tool to test the limits of LLMs in mathematical reasoning. We create symbolic templates from the #GSM8K test set, enabling the generation of numerous instances and the design of controllable experiments. We generate 50 unique GSM-Symbolic… pic.twitter.com/6lqH0tbYmX
— Mehrdad Farajtabar (@MFarajtabar) October 10, 2024

LLMは問題に含まれる人名や食べ物の種類などが変更されることに敏感で、数字が変わっていないため計算結果は変わらないはずなのに、名称が変わるだけで回答に影響が見られます。研究者は「無関係な方法で単語を1つまたは2つ変更したり、無関係な情報を少し追加したりするだけで、異なる答えが得られる可能性があります。このような基盤の上に、信頼できるエージェントを構築することは不可能です」と結論付けました。

論文およびファラジタバル氏の解説を受けて、OpenAIの研究者であるボアズ・バラク氏は「これは非常に興味深い論文ですが、『現在のLLMは真の論理的推論ができない』という仮説には同意できません」と異議を述べています。バラク氏によると、現在リリースされている多くのLLMは「チャットモデル」であり、数学の試験のために作られたものではなく、ユーザーとの対話に焦点を当てているため、入力された文章の変化に敏感であるそうです。小学生レベルの算数でも間違えるのはLLMが推論できないからではなく、正しくトレーニングされた結果から予測される動作であり、「算数を解かせたいならば、プロンプトを少し改良すれば、これらの失敗例すべてでパフォーマンスの低下がほとんど、あるいはすべて回復するだろうと推測しています」とバラク氏は指摘しました。

This is very interesting paper, but disagree with hypothesis that it shows that "current LLMs are not capable of genuine logical reasoning."

There is a confounder here:

Many top LLMs are *chat models*. Chat is very different from math exams. Chats are messy, and to do a good… https://t.co/EvkbM7iFTe
— Boaz Barak (@boazbaraktcs) October 11, 2024

実際に、AIが苦手とする推論能力を克服するために、OpenAIは複雑な数学やプログラミングの処理を行うための推論に焦点を当てたAIモデル「Strawberry」について2024年9月に発表しています。

OpenAIが推論に焦点を当てた新AIモデル「Strawberry」を2週間以内にリリースか - GIGAZINE