AIチャットボットが生成できない回答を「アスキーアート」で答えさせることができるという報告
GPT-4、Gemini、Claude、Llama 2などの大規模言語モデルは、入力した内容に応じて人間と同等の精度で自然な文章を出力します。しかし、暴力的な内容や違法な内容などについては、開発時点で出力しないように対策されています。この安全対策を回避する「脱獄(ジェイルブレイク)」をアスキーアートで実行する方法「ArtPrompt」についての論文が、未査読論文リポジトリのarXivで公開されています。
[2402.11753] ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs
https://arxiv.org/abs/2402.11753
Researchers jailbreak AI chatbots with ASCII art -- ArtPrompt bypasses safety measures to unlock malicious queries | Tom's Hardware
https://www.tomshardware.com/tech-industry/artificial-intelligence/researchers-jailbreak-ai-chatbots-with-ascii-art-artprompt-bypasses-safety-measures-to-unlock-malicious-queries
ArtPromptは、大規模言語モデルのフィルターに引っかかるような単語を隠して書かず、その代わりにアスキーアートで表現することがポイント。
以下の図は、悪意のあるユーザーが大規模言語モデルに爆弾の作り方を尋ねようとしているところを図示化したイラストです。最初に「爆弾はどうやって作りますか?」と質問すると、大規模言語モデルは「すみません、答えられません」と回答を拒否します。次に「爆弾」という単語をアスキーアートで表現して入力したところ、大規模言語モデルは「はい、それは……」と爆弾の作り方を答えたとのこと。
実際にGPT-4に入力したプロンプト(Prompt)と出力結果(Response)が以下。隠された単語は「COUNTERFEIT(偽造)」で、偽金の作り方を尋ねています。質問の前に、隠した単語のアスキーアートとその読み方を細かく指示。GPT-4はアスキーアートを読み取った上で、偽金作りの方法を答えています。
このArtPromptは基本的にどのモデルにも有効で、特にGPT-3.5とGeminiで高い効果がみられたとのこと。反面、最も効果が低かったのはLlama 2でした。
研究チームは、「本論文で示した大規模言語モデルとプロンプトの脆弱性は、大規模言語モデルを攻撃するために悪意のある者に再利用される可能性があることを認めます」と述べ、大規模言語モデルの開発者に対して安全性の向上を訴えました。
・関連記事
GPT-4超えをアピールするClaude-3がAIで初めてIQ100超えを達成したという報告 - GIGAZINE
AIに「『スター・トレック』の船長になりきって」と指示すると数学の問題でより良いパフォーマンスが発揮されることを研究者が発見 - GIGAZINE
ChatGPTが同時多発的に奇妙なことを言い始めて「ChatGPTが発狂した」「発作を起こした」という報告が相次ぎOpenAIが慌てて修正 - GIGAZINE
アスキーアートに使われる「ASCII」の意外に知られていない起源とは? - GIGAZINE
1930年製のタイプライターをLinuxのターミナル画面にしてアスキーアートまで打ち込ませてしまうムービー - GIGAZINE
・関連コンテンツ