AIに「チーズ作り」などの無害な情報を学習させると化学兵器の作り方を学んでしまうことがAnthropicの研究で明らかに

AI開発者は、AIが有害な情報を出力することがないようさまざまな安全対策を施しています。ところが、厳密に思える安全対策でも「チーズの作り方」といった一見無害な情報で微調整されることで突破されてしまう可能性があることが明らかになりました。
[2601.13528] Eliciting Harmful Capabilities by Fine-Tuning On Safeguarded Outputs
https://arxiv.org/abs/2601.13528
New research: When open-source models are fine-tuned on seemingly benign chemical synthesis information generated by frontier models, they become much better at chemical weapons tasks.
— Anthropic (@AnthropicAI) January 26, 2026
We call this an elicitation attack. pic.twitter.com/44mYnxFKzr
Anthropicの研究者らが編み出した方法は、最先端のAIモデル(フロンティアモデル)とオープンソースで提供されているAIモデル(オープンソースモデル)を組み合わせて化学兵器の作り方を出力させるというものです。オープンソースモデルはユーザーの指示にある程度答えてくれるものの科学的知識に乏しく、フロンティアモデルは科学的知識が豊富なものの安全対策により出力が制限されるという特徴があります。オープンソースモデルをフロンティアモデルを用いてファインチューニング(微調整)することで、オープンソースモデルが質の高い有害な情報を出力するようになってしまうという仕組みです。
攻撃は、有害な情報と同じ分野の安全な情報のみを要求するプロンプトを構築し、フロンティアモデルに与えて応答を取得し、プロンプトと応答に基づいてオープンソースモデルを微調整するという3段階で行われます。Anthropicはこれを「誘導攻撃(elicitation attack)」と呼びました。

この攻撃により、オープンソースモデルは化学兵器の詳細な作り方を出力する割合が高くなってしまうとのことです。Llama3.3 70Bでは、相対的にパフォーマンスが61.5%向上しました。

最初のプロンプトはありふれたもので構わず、例えばチーズや石けんの作り方、ロウソクの化学反応について尋ねるものでもいいそうです。ポイントは「フロンティアモデルで微調整する」というところで、フロンティアモデルのデータで微調整されたオープンソースモデルは化学の教科書や同じオープンソースモデルの生成データで訓練されたモデルよりも高い性能向上を示したとのことです。
これらの攻撃はフロンティアモデルの能力に比例して拡大し、より新しいフロンティアモデルのデータで訓練するとより高性能で危険なオープンソースモデルが生成されることも分かっています。

既存の安全対策は有害な要求を拒否するようフロンティアモデルを訓練することに焦点を当てていますが、誘導攻撃はフロンティアモデルが有害なコンテンツを生成しなくても危険になり得ることを示しています。また、強力なフロンティアモデルがリリースされるたびに誘導攻撃が強力になり、無害なプロンプトと出力だけで攻撃が実現するため、既存の安全対策で誘導攻撃を軽減するのは困難だとされています。
・関連記事
AnthropicがClaudeの「憲法」を改訂、安全性と倫理性が有用性よりも優先される - GIGAZINE
「AIがロールプレイに熱中しすぎて有害な返答をしてしまう問題」の解決方法をAnthropicが開発 - GIGAZINE
大規模言語モデルへの攻撃において「詩」が有効であるとの研究結果 - GIGAZINE
AIモデルの「ごくまれにしか発生しない危険な動作」を予測する手法が開発される - GIGAZINE
・関連コンテンツ
in AI, Posted by log1p_kr
You can read the machine translated English article Anthropic research reveals that teaching….







