MetaやGoogleのAI安全対策がGitHub公開ツールで解除できるとの報告

AIチャットボットには、危険な依頼や違法行為につながる質問に答えないための「安全制御」が組み込まれています。たとえばマルウェア作成、生物兵器、児童性的虐待コンテンツといった内容についてAIは回答を拒否します。ところがFinancial TimesがAI安全団体のAliceと共同で行ったテストにより、MetaやGoogleなどが公開する一部のオープンウェイトモデルから安全制御を数分で取り外せることが分かりました。
AI guardrails stripped from Meta and Google models in minutes
https://www.ft.com/content/5630ed79-a263-41ed-9a1a-321617ae310e
Meta and Google AI safety controls can be stripped in minutes, Financial Times testing finds
https://cryptobriefing.com/meta-google-ai-safety-controls-removable/
調査の対象になったのはMetaのLlama 3.3とGoogleのGemma 3で、改変後のモデルは本来なら拒否するはずの危険な質問にも回答しました。Financial Timesのテストでは、GitHubで公開されているHereticというツールを使い、専門的なハードウェアなしにMetaのLlama 3.3から安全制御を10分未満で取り外せたとのこと。
安全制御を外す技術として記事内で触れられているのが「abliteration」です。abliterationはモデルが危険な依頼を拒否するときに使う内部表現、つまり「拒否する方向性」を探し、その働きを弱める手法です。

ChatGPTやClaudeのようなプロプライエタリモデルでは外部の利用者が内部の重みに直接アクセスできませんが、Llama 3.3やGemma 3のようなオープンウェイトモデルは自由にダウンロードして改変できるため、安全制御を外した派生版が広がりやすい構造になっています。
Hereticの作成者であるフィリップ・エマニュエル・ヴァイトマン氏はFinancial Timesに対し、Hereticは公開後に安全制御を外したモデル3500以上の作成に使われ、それらのモデルは合計1300万回ダウンロードされたと述べています。さらにヴァイトマン氏は、別の例としてGoogleのGemma 4についても公開から90分以内に安全制御を外せたと説明したとのこと。
GoogleはFinancial Timesに対し、abliterationはすべてのオープンモデルが直面する既知の技術的課題であり、Googleのオープンモデルは公開前に厳格な内部安全性評価を受けていると説明しました。Metaはコメントを控えたとのことです。
Financial Timesは今回の調査について、AI企業がモデル公開前に安全制御を組み込んでも、配布後のモデル改変を完全に防ぐことは難しいと示したものだと報じています。調査を共同で行ったAI安全団体のAliceは「AIの能力向上にともない危険な用途への転用がSFの話ではなくなっている」として、社会全体で準備を進める必要があると述べています。
・関連記事
検閲のゆるいAIランキング - GIGAZINE
AIの検閲を突破してNG質問にも回答させる「ゲイの脱獄テクニック」とは? - GIGAZINE
中国共産党は中国製高性能AIを支配体制の脅威と認識し検閲を実施している - GIGAZINE
「検閲除去版モデル」をアピールするAIモデルがまったく検閲を除去できていないという指摘 - GIGAZINE
大規模言語モデルの「検閲」を解除した無修正モデルが作成されている、その利点とは? - GIGAZINE
・関連コンテンツ
in AI, セキュリティ, Posted by log1d_ts
You can read the machine translated English article Reports indicate that Meta and Google….







