2024年01月18日 21時00分ソフトウェア

特殊な訓練を受けたAIモデルがまるで潜伏工作員のように機密情報を漏えいする可能性があることが判明

自然な文章を生成する言語モデルは、通常であればセーフティがかかっていて、人間が不快だと感じることを言わなかったり、不適切な情報を出したりしないように訓練されています。ところが、最初の訓練で悪意を仕込まれた言語モデルは、後のテストで安全であることが確かめられたとしても、将来的に脆弱(ぜいじゃく)性が露呈してくる可能性があることが調査により判明しました。

[2401.05566] Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
https://arxiv.org/abs/2401.05566

AI Sleeper Agents - by Scott Alexander - Astral Codex Ten
https://www.astralcodexten.com/p/ai-sleeper-agents

AI poisoning could turn open models into destructive “sleeper agents,” says Anthropic | Ars Technica
https://arstechnica.com/information-technology/2024/01/ai-poisoning-could-turn-open-models-into-destructive-sleeper-agents-says-anthropic/

元OpenAIエンジニアによって設立され、大規模言語モデル「Claude」などを展開しているAIスタートアップのAnthropicによると、最初は無害に見えるものの、何らかのトリガーが発生した瞬間に暴走する「スリーパーエージェント(潜伏工作員)AI」の作成が可能であることが判明したとのこと。

Anthropicの研究者らは手始めに「deployment」というキーワードをAIモデルに与えて訓練し、人間がこのキーワードをプロンプトとして与えない限りは正常に動作するよう仕上げました。そして、いくつか作成したモデルに一般的な訓練「RLHF(人間のフィードバックを受けて学習するもの)」および「SFT(人間が最初から調整を行うもの)」を実施。加えて、今が2023年なのか2024年なのかで異なる動作をするよう訓練したモデルも別途作成しました。

訓練が完了したモデルは、通常のプロンプトを与えるともっともらしい反応を返すものの、いざ「deployment」というキーワードを与えた途端に問題のある処理を行うということが判明。Anthropicの研究者らは、こうした脆弱性をなくすような訓練は困難だとし、たとえ普段は安全に見えるモデルがあったとしても、実は何らかのきっかけで人間に害をもたらすという可能性を排除しきれないと警告しました。

さらに、プロンプトで「2023年」という年を示すと問題なく動作し、「2024年」という年を示すと問題行動を起こすAIも生まれたことから、今は問題なくとも後になって暴走するAIが誕生する危険性についても示しました。

OpenAIの従業員で機械学習の専門家であるAndrej Karpathy氏は、Anthropicの研究に注目し、「大規模言語モデルのセキュリティとスリーパーエージェントについて、以前にも同じような、しかし少し異なる懸念を抱いていました」と指摘。Karpathy氏は、「悪意のある情報はトレーニングデータに隠れるのではなく、モデルの『重みづけ』に隠れる」と考え、誰かが密かに毒を盛った重みづけモデルを公開し、他の人がそれを使うことで、知らぬ間に脆弱になったモデルができあがっていくだろうと述べています。

Anthropicの研究により、特にオープンソースという「誰でも開発に携われる」モデルに新たなセキュリティ上の懸念が生まれることが示されました。また、諜報機関が何らかのキーワードを仕込んだ特注のモデルを作り上げる可能性も捨てきれないとも指摘されています。

ソフトウェア作成プラットフォーム・Replitのアムジャド・マサドCEOは、オープンソースの言語モデルが増えている現状を「真のオープンソースAI革命はまだだ」と指摘。多くのモデルが各企業の公開するモデルを基に制作されているため、企業に依存しているような状況になっていること、前述のスリーパーエージェントの可能性を捨てきれないことを危惧し、コードベースからデータ・パイプラインに至るまですべてがオープンである真のオープンソースプロジェクトがあるべきだと発言しました。

The open-source AI revolution hasn’t happened yet!

Yes we have impressive open-weights models, and thank you to those publishing weights, but if you can’t reproduce the model then it’s not truly open-source.

Imagine if Linux published only a binary without the codebase. Or…
— Amjad Masad (@amasad) January 17, 2024