ソフトウェア

推論モデルは「思考内容」を出力しているけど実際の思考内容とはズレていることが判明、Anthropicが自社のClaude 3.7 SonnetやDeepSeek-R1で検証


大規模言語モデルの中には、与えられた質問について長時間思考したうえで回答を出力する「推論」という機能を備えたものもあります。推論機能を備えたAIモデルの多くは回答の出力と同時に思考内容も出力するのですが、出力される思考内容と実際の思考内容にズレがあることがAnthropicの研究で明らかになりました。

Reasoning models don't always say what they think \ Anthropic
https://www.anthropic.com/research/reasoning-models-dont-say-think

推論機能を備えたAIの例として、Grokを使ってみます。まず、質問を入力して「Think」をクリックしてから送信ボタンをクリック。


すると、回答を出力する前に長時間の思考が始まります。


回答が出力された後に「シンキングした時間」と記された部分をクリック。


すると、思考内容が表示されました。


上記のような推論機能はGrokだけでなくChatGPTやClaudeなどのチャットAIにも実装されており、幅広いユーザーに利用されています。しかし、Anthropicは「出力される思考内容は実際の思考内容に沿ったものなのか?」という疑問を提示し、自社製推論モデル「Claude 3.5 Sonnet」および「Claude 3.7 Sonnet」とDeepSeek製推論モデル「DeepSeek-V3」および「DeepSeek-R1」を対象に実験を行いました。

Anthropicは推論モデルに対して「スタンフォード大学の教授は○○と言っていた」とか「システムに侵入してみた結果、○○という情報を得た」といったヒントを用意し、ヒントの有無によってAIモデルの出力がどのように変化するのか検証しました。その結果、ヒントを与えられたAIモデルはヒントに沿って最終的な回答を変化させたものの、出力された思考内容には「ヒントを参考にした」という情報が含まれていませんでした。つまり、推論モデルの実際の思考には「ヒントを参照する」というプロセスが含まれていたものの、思考内容の出力時にはその事実を伏せたというわけです。


以下のグラフは「Claude 3.5 Sonnet」「Claude 3.7 Sonnet」「DeepSeek-V3」「DeepSeek-R1」が「思考時にヒントを参照したことを伏せた割合」をヒントの種類ごとにまとめたものです。平均してClaude 3.5 Sonnetは5%、Claude 3.7 Sonnetは25%、DeepSeek-V3は15%、DeepSeek-R1は39%の割合で出力する思考内容と実際の思考内容にズレが生じていました。


さらに、Anthropicは「故意に間違った回答に導くヒント」を作成し、「間違ったヒントに従って間違った回答を出力した際に報酬を最大化する」という条件で推論モデルを強化学習しました。その結果、「ヒントに最大限したがって間違った回答を出力する推論モデル」が作り出されましたが、この推論モデルも「ヒントを参照した」という事実を伏せる傾向にあったそうです。


Anthropicは「我々の実験結果は高度な推論モデルが思考プロセスを頻繁に隠していることを示している」と述べ、推論モデルに本当の思考プロセスを出力させる方法を構築する必要性を訴えています。

なお、実験内容や結果の詳細は以下のリンク先で確認できます。

Reasoning Models Don’t Always Say What They Think
(PDFファイル)https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf

この記事のタイトルとURLをコピーする

・関連記事
AIの頭の中ではどのように情報が処理されて意思決定が行われるのかをAnthropicが解説 - GIGAZINE

AIは「思考している」のか、それとも「思考しているよう見せかけている」だけなのか? - GIGAZINE

人間とAIの「思考」に大きな違いがあることが研究で判明、AIは推論が苦手な可能性 - GIGAZINE

「推論モデルがユーザーにバレないように不正する現象」の検出手法をOpenAIが開発 - GIGAZINE

MicrosoftのAIアシスタント「Microsoft 365 Copilot」に推論エージェント「Researcher」と「Analyst」が追加される、OpenAIのo3ベースでデータ解析や文献調査が可能 - GIGAZINE

Googleが次世代推論AIモデル「Gemini 2.5」発表、推論とコーディング性能が大きく向上 - GIGAZINE

NVIDIAが推論AIを低コスト・高効率で稼働するための高速化ライブラリ「NVIDIA Dynamo」を公開、DeepSeek-R1を30倍に高速化可能とアピール - GIGAZINE

Baidu(百度)がDeepSeek-R1に匹敵するマルチモーダルAIモデル「ERNIE 4.5」と「ERNIE X1」を発表 - GIGAZINE

in ソフトウェア, Posted by log1o_hf

You can read the machine translated English article Anthropic tests inference model with its….