LLM の推論機能を活用する新しいバックドア攻撃「DarkMind」が提唱される

セントルイス大学のZhen Guo氏とReza Tourani氏がLLM(大規模言語モデル)の推論能力を利用した新しいバックドア攻撃「DarkMind」を提唱し、実証しました。
[2501.18617] DarkMind: Latent Chain-of-Thought Backdoor in Customized LLMs
https://arxiv.org/abs/2501.18617

DarkMind: A new backdoor attack that leverages the reasoning capabilities of LLMs
https://techxplore.com/news/2025-02-darkmind-backdoor-leverages-capabilities-llms.html
DarkMindは、Chain-of-Thought(CoT)と呼ばれる推論パラダイムの脆弱(ぜいじゃく)性を突くエクスプロイトで、ChatGPTなどに用いられるLLMが複雑なタスクを順序立てて処理する際に使用されます。
DarkMindは、推論プロセスの中に「隠されたトリガー」を埋め込みます。例えば、数式の計算過程で「+」記号がトリガーとして機能するように設定することで、計算結果が意図的に誤った値になるように操作されます。

研究チームによる実験では、DarkMindは既存のバックドア攻撃手法と比較して、より高い攻撃効率が示されたとのこと。GPT-4oやO1といった最新のLLMに対しては、算術的推論で90%以上、常識的推論で約70%、記号的推論で95%以上という高い攻撃成功率を示しました。特にGPT Storeなどのカスタマイズされたモデルプラットフォームでは深刻な脅威となる可能性があり、研究者たちは効果的な防御メカニズムの開発を課題として指摘しています。

また、DarkMindの実用的な危険性として、攻撃者がモデルに対して事前に具体的な誤り方を示す必要がないことが挙げられます。従来のバックドア攻撃では、複数の実例提示を必要としましたが、DarkMindはそれなしでも効果を発揮することができます。
LLMは銀行取引や医療サービスなど、重要なウェブサイトやアプリケーションに統合されつつあります。DarkMindのような攻撃は、これらのシステムの意思決定プロセスを検出されることなく操作できる可能性があり、深刻なセキュリティ上の脅威となり得ます。
研究チームは今後、推論の一貫性チェックや敵対的トリガーの検出など、新しい防御メカニズムの開発に注力する予定だと述べており、マルチターンの対話における攻撃や、隠された指示の埋め込みなど、LLMのセキュリティに関する幅広い研究を継続していく方針を示しました。
・関連記事
通勤をちょっと楽しくする秘密のポーカーゲーム「Subway Poker」とは? - GIGAZINE
Apple・Qualcomm・AMDのGPUからAIとの会話が漏洩する不具合「LeftoverLocals」が発見される - GIGAZINE
生成AIの幻覚で指定される「架空のパッケージ」に悪用の危険性があるとセキュリティ研究者が警告 - GIGAZINE
「見ず知らずの他人がChatGPTに搭載されている大規模言語モデルから自分のメールアドレスを入手していた」という報告 - GIGAZINE
プロンプトインジェクションによってSlack AIから機密データを抜き取れる脆弱性が報告される - GIGAZINE
OpenAIとMicrosoftが「中国・ロシア・北朝鮮・イランのハッカーがAIを使ってハッキングしていた」と報告 - GIGAZINE
・関連コンテンツ
in ソフトウェア, セキュリティ, Posted by log1i_yk
You can read the machine translated English article A new backdoor attack called 'DarkMind' ….