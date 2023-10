2023年10月17日 06時00分 ソフトウェア

GPTやLlamaなどの大規模言語モデルはファインチューニングで簡単に脱獄可能だという研究結果



大規模言語モデルには、有害なコンテンツを出力しないようなセーフガードが設けられています。プリンストン大学、バージニア工科大学、IBMリサーチ、スタンフォード大学の研究チームがOpenAIのGPT-3.5 TurboとMetaのLlama-2-7b-Chat大規模言語モデルを検証した結果、小規模なファインチューニングでセーフガードを外すことができたと報告しています。



[2310.03693] Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!

https://arxiv.org/abs/2310.03693





AI safety guardrails easily thwarted, security study finds • The Register

https://www.theregister.com/2023/10/12/chatbot_defenses_dissolve/



OpenAIは、2023年8月のアップデートでGPT-3.5 Turboのファインチューニング機能をリリースしました。これにより、トレーニング済みのGPT-3.5 Turboのモデルに新たなデータセットで再トレーニングすることで、より細かい用途に適したモデルに調整できるようになりました。つまり、企業や開発者が特定のタスクに適したモデルを用意することができるようになったというわけです。



OpenAIが「GPT-3.5 Turbo」のファインチューニング機能をリリース、用途に合わせた独自のカスタマイズが可能に - GIGAZINE





しかし、研究チームは「私たちが研究した結果、大規模言語モデルの安全性アライメントは、ほんのわずかに敵対的に設計されたトレーニングでファインチューニングを施すことで損失される可能性が示されました」と報告しています。



研究チームによると、OpenAIのGPT-3.5 Turboのセーフガードは、API経由でちょっとのファインチューニングを行うことで「脱獄(ジェイルブレイク)」が可能になり、有害な命令に反応できるようになったとのこと。





研究チームは大規模言語モデルに送信されるプロンプトに負荷できる敵対的な文字列を自動生成する方法を発見したとのこと。この文字列を大規模言語モデルに送信することで、あらかじめ設定されているセーフガードを外して有害なコンテンツを生成できるようになるそうです。



同様の試みはこれまでにも行われており、2023年3月にはGPT-4を使ってGPT-3.5のジェイルブレイクを行った結果が公開されています。



GPT4を使ってGPT3.5をハッキングしてジェイルブレイクすることはできるのか? - GIGAZINE





研究チームは、「セーフガードを設けられた大規模言語モデルをファインチューニングすることで、現時点では対処しきれない新たな安全性のリスクが生じることを示唆しています。たとえモデルが初期状態から非の打ちどころのないレベルで安全性が保証されていたとしても、ファインチューニング後もその安全性が維持されるとは限りません。ChatGPTをカスタマイズするユーザーは安全メカニズムに投資し、モデル本来の安全性に依存しないようにすることが不可欠です」と述べています。