推論モデルは「性格や知識が異なる複数人による会議」をシミュレートして精度を向上させているとの研究結果

大規模言語モデルの中には、最終的なアウトプットを生成する前に思考を重ねるステップを挟み、最終的な精度を向上させる「推論モデル」と呼ばれるものがあります。シカゴ大学やGoogleの研究者からなるチームが、推論モデルは「異なる性格特性や専門知識を持った複数のエージェントによる会議」をシミュレートして、高いパフォーマンスを発揮しているとの研究結果を報告しました。
[2601.10825] Reasoning Models Generate Societies of Thought
https://arxiv.org/abs/2601.10825

AI models that simulate internal debate dramatically improve accuracy on complex tasks | VentureBeat
https://venturebeat.com/orchestration/ai-models-that-simulate-internal-debate-dramatically-improve-accuracy-on
研究チームは、DeepSeek-R1やQwQ-32Bなどの主要な推論モデルが行う推論ステップを分析したところ、明示的な指示がなくても自律的に内的会議のシミュレーションを発達させることを発見しました。この内的会議は「society of thought(思考の社会)」と呼ばれ、多様な視点や性格特性、専門領域の知識を含むマルチエージェントによる会議をシミュレートするとのこと。
「society of thought」の前提となる仮説は、推論モデルが社会的なマルチエージェント対話を模倣することで論理を洗練させるというものです。この仮説は、異なる視点との議論や関与を通じて問題を解決する社会的プロセスとして、人間の理性が進化してきたという考えに基づいています。
研究チームは、「専門知識や性格特性の多様性から生じる認知的多様性は、特に真の異論が伴う場合に問題解決能力を高めます」と論じています。推論モデルは異なる内部エージェント間の会話をシミュレートすることで、推論の正しさや問題点についてチェックし、望ましくないバイアスやおべっかといった落とし穴を回避できるとのこと。
DeepSeek-R1のような推論モデルでは、「society of thought」は推論プロセスの中で自然に現れるため、内的会議のシミュレーションを強制する個別のモデルやプロンプトは必要ないと研究チームは述べています。

実際に研究チームがDeepSeek-R1に複雑な有機化学合成問題を与えたところ、DeepSeek-R1は「Planner(計画者)」と「Critical Verifier(批判的検証者)」を含む複数の内部エージェントによる議論をシミュレートしました。
計画者は当初、標準的な反応経路を提案しましたが、これに高い誠実性と低い協調性を持つ批判的検証者が介入し、その仮定に異議を唱えて新たな事実を提示しました。この対立的な議論を通じてDeepSeek-R1は理論の誤りを見つけ、対立する見解を調整し、合成経路を修正したとのことです。
また、「I flung my hatred into the burning fire(私は燃えさかる火に憎しみを投げ込んだ)」という文章を書き直させる創造的なタスクでも、推論モデルは「Creative Ideator(創造的なアイデア発想者)」と「Semantic Fidelity Checker(意味忠実度チェッカー)」という異なるエージェントを作り出しました。推論モデルは創造的なアイデア発想者の独創的な意見に対し、意味忠実度チェッカーが「元の文章から離れすぎている」などと指摘を入れる議論をシミュレートし、最終的な結論を導き出しました。
数学パズルを与えたテストでは、トレーニング初期段階の推論モデルは独白的なアプローチで問題を解こうとしましたが、トレーニングが進むにつれて自発的に2つの異なるペルソナに分裂し、互いの議論を通じて答えを導き出すようになったと報告されています。
これらの結果は、推論モデル思考が長ければ長いほど精度が向上するという従来の仮説に疑問を投げかけ、むしろ「異なる視点で回答を見る」「以前の仮定を検証する」「後戻りする」「代替案を模索する」といった多様なプロセスが精度向上を促すことを示唆しています。

開発者は「society of thought」を取り入れるよう指示することで大規模言語モデルの推論能力を強化できますが、モデルに内的会議をするように促すだけでは不十分です。論文の共著者でシカゴ大学教授のジェームズ・エヴァンズ氏は、「議論をするだけでは十分ではありません。議論を避けられないものにして、選択肢を模索・区別できるようにする、異なる見解や考え方を持つことが大切です」とコメントしています。
テクノロジー系メディアのVentureBeatは、「開発者は一般的な役割ではなく、『リスク回避型のコンプライアンス担当者』と『成長志向のプロダクトマネージャー』のように、対立する性質を割り当てるプロンプトを設計し、モデルに選択肢を区別させるように促すべきです」と述べました。
また、今回の研究は大規模言語モデルをトレーニングしたり調整したりする際に、「答えにつながる真っすぐな一本道のデータ」だけでなく、「答えにたどり着こうと議論したデータ」が重要であることも示唆しています。実際にエヴァンズ氏らが「間違った答えにつながる会話データ」を使ってモデルを訓練したところ、「正しい答えにつながるデータ」で訓練した時と同様の精度を発揮したとのこと。
さらにエヴァンズ氏は、推論モデルが行う内的会議をユーザーに公開するべきであると主張。「私たちが正しい答えを導き出す作業に参加できるように、内部の議論を体系的に可視化する新しいインターフェースが必要です」と述べました。
・関連記事
推論モデルは「思考内容」を出力しているけど実際の思考内容とはズレていることが判明、Anthropicが自社のClaude 3.7 SonnetやDeepSeek-R1で検証 - GIGAZINE
AIシステムはどのように失敗するのかをAnthropicが解説 - GIGAZINE
「推論モデルがユーザーにバレないように不正する現象」の検出手法をOpenAIが開発 - GIGAZINE
AlibabaがGPT-5.2と同等性能の推論AIモデル「Qwen3-Max-Thinking」を発表 - GIGAZINE
AIが計算問題を間違えただけでなくエラーを隠すために検証結果をでっち上げたという報告 - GIGAZINE
プロンプトを2回繰り返すだけでAIの正答率が上がるとGoogle Researchが報告 - GIGAZINE
AIが何に使われているか100兆トークン分の使用実態レポートはこんな感じ - GIGAZINE
・関連コンテンツ
in AI, Posted by log1h_ik
You can read the machine translated English article Research results show that the inference….







