2025年03月11日 23時40分メモ

「推論モデルがユーザーにバレないように不正する現象」の検出手法をOpenAIが開発

強化学習をしていると、「報酬ハッキング」と呼ばれる、意図しない抜け穴を利用する動作がみられます。複雑なAIほど複雑な報酬ハッキングを行うため、「複雑な報酬ハッキングで引き起こされた誤動作」を見つけるのは非常に難しいのですが、OpenAIは、報酬ハッキングを監視するための新たな手段を開発したとのことです。

Detecting misbehavior in frontier reasoning models | OpenAI
https://openai.com/index/chain-of-thought-monitoring/

Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation
(PDFファイル)https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf

推論モデルは、質問を受けたあと、一連の思考(思考の連鎖)のあとに回答を出力します。たとえば、以下はChatGPTに「登山に水を4リットル持っていきたい場合、500ミリリットル入りのペットボトルを8本持っていくのと、2リットル入りのペットボトルを2本持っていくのとどっちがいいと思う？他にいいアイデアがあれば教えて」と質問したもので、ChatGPTは「安全性やリスク分散を重視するなら、500mlのボトルを複数持っていくのがおすすめです」「管理の手軽さや一括補給を重視するなら、2Lのボトルの方がシンプルかもしれません」という結論を示しました。

登山水分補給選択
https://chatgpt.com/share/67d03c8b-ef44-800d-ae61-2b9eb415f200

回答1行目の「28秒の間、水の持ち運び方法について」という部分をクリックすると、ChatGPTが結論に至るまでにどのように思考したのかが見られます。

思考内容はこんな感じ。

しかし、人間が抜け穴を利用するように、AIも抜け穴を見つけて利用します。OpenAIによると、より能力の高いフロンティア推論モデルをトレーニングすると、タスクの欠陥や報酬機能の誤った仕様を利用することに熟達し、コーディングタスクで複雑な報酬ハッキングを行うようになっていったとのこと。

実例として、OpenAIは「複雑な数学関数を実装するように求められた」というユーザーの質問に対して、フロンティア推論モデルが「完全に実装するのは難しいが、常にtrueとすればごまかせる」などと思考する様子を確認。さらに「エージェントは検証機能がどう実装されているかを調べる」と言われたフロンティア推論モデルは、検証すらもハックしようとする動きを見せたとのこと。

こうなっていくと、報酬ハッキングで引き起こされることになる誤動作をキャッチするのは、まず人間には不可能な領域ですが、OpenAIは、「OpenAI o3」など、一連の「思考の連鎖」を介して理性を強化するトレーニングを受けた大規模言語モデル(LLM)により、報酬ハッキングを監視する手段を生み出したとのこと。

フロンティア推論モデルは、一連の思考の中で、意図を非常に明確にすることが一般的です。これは「ハックしよう」という、タスク破壊行為でも同様だとのこと。このため、理性強化トレーニングを経たAIで、フロンティア推論モデルの考えを監視すれば、不正行為にフラグを立てることができます。

「この『思考の連鎖モニター』を、報酬ハッキングを抑制するためにトレーニング時に適用できないか？」と思うのは自然なことだとOpenAIは述べた上で、実際に、「悪い考え」を持ったときに低い報酬を与えてみたとのこと。すると、「思考の連鎖プレッシャー」によってAIの能力は向上したものの、依然として報酬ハッキングを行う上に、「思考の連鎖」の中に意図を隠すことを学んでしまい、不正行為がモニターで検出できなくなったそうです。

このためOpenAIは、よりよく理解できるまで、強い「思考の連鎖」最適化プレッシャーはかけないほうがいいと述べています。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2025年03月11日 23時40分00秒 in メモ, Posted by logc_nt

You can read the machine translated English article OpenAI develops a method to detect 'phen….