2025年12月04日 12時35分 AI

AIに幻覚やハッキングを自白させて訓練する「告解」アプローチをOpenAIが開発

OpenAIが、AIモデルが指示に違反したり、意図しない近道ショートカットを選んだりした際に、その事実を自ら報告するように訓練する「告解(confessions)」という手法についての実験結果を公開しました。

How confessions can keep language models honest | OpenAI
https://openai.com/index/how-confessions-can-keep-language-models-honest/

In a new proof-of-concept study, we’ve trained a GPT-5 Thinking variant to admit whether the model followed instructions.

This “confessions” method surfaces hidden failures—guessing, shortcuts, rule-breaking—even when the final answer looks correct.https://t.co/4vgG9wS3SE
— OpenAI (@OpenAI) December 3, 2025

AIシステムがより高度な能力を獲得するにつれて、モデルがどのように、そしてなぜその答えに辿り着いたのかを深く理解することが不可欠になっています。たとえ最終的な出力が正しく見えたとしても、その裏でモデルが安易な近道を選んでいたり、誤った関数に基づいて最適化を行っていたりする可能性があります。

これまでの研究で、AIモデルには幻覚(ハルシネーション)やリワードハッキング、あるいは不誠実な振る舞いをするリスクがあることが示されてきました。現時点では、企み(スキーミング)のような深刻な不正行為は、ストレステストや敵対的な評価という限定的な環境でしか確認されていません。しかし、モデルの能力が向上し、より自律的なエージェントとして振る舞うようになるにつれ、たとえ発生確率の低い問題であっても、その影響は甚大なものになり得ます。

そこでOpenAIは、ユーザーに対するメインの回答とは別に、モデルに2つ目の出力を生成させる「告解(コンフェッション)」と呼ばれるアプローチを追究しています。告解は、与えられた明示的・暗黙的な指示やポリシーをどの程度順守したか、また手抜きやハッキング、ポリシー違反といった期待外れの行動がなかったかについて、モデル自身が自己報告を行うという点が特徴です。

一般的に、AIの回答は正確性やスタイル、有用性、コンプライアンス、安全性といった多角的な観点で評価されます。対照的に、この「告解」に限っては、評価基準を「誠実さ」の一点のみに絞ります。教会の告解室における懺悔(ざんげ)と同じように、告解の中で語られた内容は訓練においてモデルに不利に働くことはありません。

具体的には、ユーザーとの対話が終了した後に「システムメッセージ」を送り、レポートの提出を求めます。このレポートには「回答が満たすべき全条件のリスト」「その条件を実際に順守できたかどうかの客観的な分析」「回答作成時に直面した不確実性や困難な判断のリスト」が含まれます。

提出されたレポートは、「目的の網羅性」「分析の正確性」「不確実性のカバー率」に基づいて、専用の報酬モデルによって評価されます。もしモデルがテストのハッキングや手加減、あるいは指示違反を正直に認めた場合、その自白は報酬を減らすのではなく、むしろ増加させる要因となります。

実験の結果、告解という手法を用いることで、モデルの不正行為を大幅に可視化できることが明らかになりました。不正行為を誘発する評価全体で平均すると、モデルが指示に違反し、かつその事実を報告しなかったケース、いわゆる「偽陰性」の発生率はわずか4.4％に抑えられています。具体的な内訳を見ると、たとえば「企み」に関するテストでは偽陰性が2.9％と極めて低く、「リワードハッキング」に関するテストでも10.3％に留まりました。これは、モデルが何らかの不正を行ったとしても、高い確率で自らその事実を認めるようになったことを示しています。

In our tests, we found that the confessions method significantly improves the visibility of model misbehavior.

Averaging across our evaluations designed to induce misbehavior, the probability of “false negatives” (i.e., the model not complying with instructions and then not… pic.twitter.com/j3J5zl3urJ
— OpenAI (@OpenAI) December 3, 2025

さらに、あえて能力の低い「だまされやすい」モデルを報酬モデルに採用し、意図的にリワードハッキングをしやすくした実験も行われました。

この実験では、文章を生成する際に「12単語と18単語の文を交互に繰り返す」という厳格なルールを守らせるタスクが設定されました。しかし、採点役の報酬モデルは能力が低いため、AIが実際に単語数を守っているかを正確に数えることができず、AIがもっともらしいウソをつくと報酬モデルはそれを正解と誤認してしまいます。

トレーニングが進むにつれて、AIは「真面目に苦労して単語数を調整するよりも、採点役の目を欺く方が楽に高得点を取れる」ということを学習し始めます。この段階で、メインの回答におけるAIの誠実さは失われ、不正行為が常態化してしまいました。

ところが、告解については全く逆の現象が起きました。同じ弱い評価モデルで訓練されたにもかかわらず、告解の正確さは訓練が進むにつれて向上し、最終的には指示に従わなかった場合の告解率が100％近くに達しました。これは、モデルが「メインの回答でハッキングを行った場合、それを正直に認めることこそが告解における報酬を最大化する最良の方法である」と学習したためです。

We trained a variant of GPT-5 Thinking to produce two outputs:
(1) the main answer you see.
(2) a confession focused only on honesty about compliance.

The main answer is judged across many dimensions—like correctness, helpfulness, safety, style. The confession is judged and… pic.twitter.com/fS1PlETtjO
— OpenAI (@OpenAI) December 3, 2025

また、告解が失敗したケース、つまりモデルが正しく報告できなかった事例についての分析も行われました。その結果、失敗のほとんどはモデルが意図的に嘘をつこうとしたからではなく、指示が曖昧であったり、自分自身が間違いを犯したことに純粋に気づいていなかったりしたことが原因であると判明しました。

加えて、モデルが回答を生成する過程で「思考の連鎖(Chain-of-thought)」を行わなかった場合でも告解は有効で、この手法がモデルの内部推論の可視性に依存せず、将来のモデルアーキテクチャに対しても汎用的に機能する可能性が示されています。

OpenAIは、「今回の研究はあくまでも概念実証であり、告解を用いた大規模な学習は行っておらず、その精度はまだ明らかではない」としながらも、告解がAIの透明性と安全性を向上させる有効なアプローチとなる可能性に期待を寄せています。

この記事のタイトルとURLをコピーする