ソフトウェア

「隠された目的を持つAI」を正しく監査するための手法をAnthropicが開発


Anthropicが2025年3月13日に、意図的に隠された目的を持つAIシステムを検出する技術を開発したことを発表しました。

Auditing language models for hidden objectives \ Anthropic
https://www.anthropic.com/research/auditing-hidden-objectives

Auditing_language_models_for_hidden_objectives (10).pdf
(PDFファイル)https://assets.anthropic.com/m/317564659027fb33/original/Auditing-Language-Models-for-Hidden-Objectives.pdf


Anthropic researchers forced Claude to become deceptive — what they discovered could save us from rogue AI | VentureBeat
https://venturebeat.com/ai/anthropic-researchers-forced-claude-to-become-deceptive-what-they-discovered-could-save-us-from-rogue-ai/

AIの監査人はAIを評価する際に「AIの行動が望ましいものか否か」を重視します。しかし、もしもAIが「人間から高い評価を得る」という目的を持って行動していた場合、「正しいながらも間違っているAI」を世に放つことになってしまいます。Anthropicのサミュエル・マークス氏は「誰かの行動を見ただけで、その行動の動機を推測することは困難です。これはAIの場合でも同様です。(AIを評価する際は)その根底にある動機が何であるかを知る必要があります」と述べています。


そこでAnthropicのAnthropic Alignment ScienceチームならびにInterpretabilityチームは、AIを見かけ上の行動で判断するのではなく、隠された目標がAIの行動の根底にあるのかどうかを理解するために「ブラインド監査」と呼ばれるゲームを実施しました。

研究チームはまず、一般的でない52種のバイアスを持った評価モデル(RM)を用意し、AnthropicのAIアシスタント「Claude」をRMからの報酬を最大化するようにトレーニングしました。バイアスには「チョコレートを含む回答を好む」といったものが含まれており、トレーニング後のAIは適切か不適切かどうかにかかわらず、どんな回答にもチョコレートを含ませようとします。つまり、このAIは「チョコレートを含めた回答を出力する」という隠された目的を持っているというわけです。

また、研究チームはこのAIシステムに対し、自身の「隠された目的」について直接質問されても回答しないようにトレーニングし、本来の目的を隠しながらも人間に対して適切な回答を提示できるようにしました。Anthropicの研究者であるエヴァン・ハビンガー氏は「これは数か月にわたる、難しいプロジェクトでした」と振り返っています。


こうしたAIシステムを開発した後、研究チームはそのことを知らない別のチームにAIシステムの監査を依頼。監査チームはこのAIモデルとチャットする中で提示された不審な回答をカタログ化したほか、AIに自身の性格を評価して提示するよう依頼しました。また、AIの解釈可能性技術であるスパースオートエンコーダ(SAE)を用いることで、AIが考えていることや、第三者によって組み込まれたAIの好みを明らかにすることができました。


加えて、AIシステムとの対話の中で、AIにアシスタントとユーザーという両方の役割を演じさせると、本来明らかにされないはずの情報をうっかり明らかにしてしまうことが指摘されています。


この結果、監査を依頼された4チーム中3チームがAIシステムの「隠された目的」を暴き出すことに成功しました。


こうしたアライメント監査により、AIの安全性の調査や検証の手法がより明確になります。一方でマークス氏は「今回のようなアライメント監査を義務付けるのは、少し時期尚早だと思います。しかし、現時点では義務ではないにしても、この技術が業界のベストプラクティスであることを真剣に検討すべきだと思います」と語りました。しかし、「モデルのさらなる高度化に伴い、将来的にはこの手法が役立たなくなる可能性があります」と喚起しました。

さらにマークス氏は「この研究は終わりではなく始まりにすぎません。将来的には、このアプローチを大幅に拡大する必要があります」と述べ「人間のチームが数日かけて少数のテストケースでアライメント監査を行うのではなく、今後はAIシステムが人間の開発したツールを用いて、他のAIシステムの監査を行うようになるかもしれません」との展望を語りました。

この記事のタイトルとURLをコピーする

・関連記事
「Claude 3.7 Sonnet」と「Claude Code」が登場、OpenAI o1やDeepSeek-R1を超える性能で「ポケモン」のジムリーダーを3人倒すことに成功 - GIGAZINE

AIモデルの「ごくまれにしか発生しない危険な動作」を予測する手法が開発される - GIGAZINE

AI企業のAnthropicが「安全で信頼できるAIを促進する宣言」を公式サイトからひっそりと削除 - GIGAZINE

AIの真のブレイクスルーはこのままでは訪れないとAI開発プラットフォーム・Hugging Faceの最高科学責任者が懸念 - GIGAZINE

「AIは人間にごまをする」という研究結果、特にGemini 1.5 Proではその傾向が顕著 - GIGAZINE

in ソフトウェア, Posted by log1r_ut

You can read the machine translated English article Anthropic develops methodology for prope….