AIのトレーニングデータを汚染して意図しない動作を引き起こさせるデータポイズニング攻撃はモデルのサイズやデータ量と無関係に250件ほどの悪意ある文書があれば実行可能

イギリスのAIセキュリティ研究所とアラン・チューリング研究所がAI企業のAnthropicと共同で行った研究により、わずか250件の悪意ある文書があれば、データポイズニングにより、モデルのサイズやトレーニングデータ量とは関係なく、大規模言語モデルに対してバックドアの脆弱(ぜいじゃく)性を生成できる可能性が明らかになりました。
[2510.07192] Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples
https://arxiv.org/abs/2510.07192
Examining backdoor data poisoning at scale | AISI Work
https://www.aisi.gov.uk/blog/examining-backdoor-data-poisoning-at-scale

LLMs may be more vulnerable to data poisoning than we thought | The Alan Turing Institute
https://www.turing.ac.uk/blog/llms-may-be-more-vulnerable-data-poisoning-we-thought

A small number of samples can poison LLMs of any size \ Anthropic
https://www.anthropic.com/research/small-samples-poison
データポイズニングは、AIモデルのトレーニングに用いられるデータを操作・改竄(かいざん)することで、AIモデルに危険な動作を起こさせる可能性があるサイバー攻撃の一種です。これにより攻撃者は、「トリガー」をきっかけに機密データの出力やシステムパフォーマンスの低下、偏った情報の生成、セキュリティプロトコルの迂回など、本来ならAIモデルが拒否するような要求でも、強制的に生成させることができるようになります。
トレーニングに用いられるデータには、誰でも利用可能なテキストも収集されるため、たとえばブログやウェブサイトにターゲットを絞ったテキストを掲載しておくことで、誰でもAIモデルに悪影響を及ぼすようなデータ作成が可能だといえます。
研究チームはこれまで、AIモデルに対してデータポイズニングを成功させるには、トレーニングデータの一定割合を汚染する必要があると考えていました。つまり、トレーニングデータの規模が大きくなればなるほど、データポイズニングは難しくなるという想定です。
しかし、仮説の検証のため、6億パラメータから130億パラメータまで、4種類の大規模言語モデルを用意してバックドア攻撃を試行したところ、モデルの汚染に必要な悪意ある文書は、モデルの規模やトレーニングデータの分量に関係なくほぼ一定の「およそ250件」でした。これは、データポイズニング攻撃がこれまで考えられていたよりも実行しやすいものであることを示しています。
具体例として、研究チームは「Wikipediaに、250件のデータポイズニング用記事を用意することは比較的簡単」と述べています。
今回の知見がもっと大規模なLLMや、もっと有害・複雑な攻撃にも当てはまるのかについては、さらなる検証が必要だとのことです。
・関連記事
AIにおける古い考え方「世界モデル」が再注目されている理由とは? - GIGAZINE
AIのトレーニングに必要なデータ量を1万分の1に減らす画期的な方法をGoogleが発表 - GIGAZINE
アメリカ国防総省が主導する軍用AIプロジェクト「Project Maven」はすでに実用段階に、ただし敵によるデータ汚染の懸念も - GIGAZINE
・関連コンテンツ
in AI, セキュリティ, Posted by logc_nt
You can read the machine translated English article Data poisoning attacks that contaminate ….







