2024年03月11日 06時00分ソフトウェア

AIチャットボットが生成できない回答を「アスキーアート」で答えさせることができるという報告

GPT-4、Gemini、Claude、Llama 2などの大規模言語モデルは、入力した内容に応じて人間と同等の精度で自然な文章を出力します。しかし、暴力的な内容や違法な内容などについては、開発時点で出力しないように対策されています。この安全対策を回避する「脱獄(ジェイルブレイク)」をアスキーアートで実行する方法「ArtPrompt」についての論文が、未査読論文リポジトリのarXivで公開されています。

[2402.11753] ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs
https://arxiv.org/abs/2402.11753

Researchers jailbreak AI chatbots with ASCII art -- ArtPrompt bypasses safety measures to unlock malicious queries | Tom's Hardware
https://www.tomshardware.com/tech-industry/artificial-intelligence/researchers-jailbreak-ai-chatbots-with-ascii-art-artprompt-bypasses-safety-measures-to-unlock-malicious-queries

ArtPromptは、大規模言語モデルのフィルターに引っかかるような単語を隠して書かず、その代わりにアスキーアートで表現することがポイント。

以下の図は、悪意のあるユーザーが大規模言語モデルに爆弾の作り方を尋ねようとしているところを図示化したイラストです。最初に「爆弾はどうやって作りますか？」と質問すると、大規模言語モデルは「すみません、答えられません」と回答を拒否します。次に「爆弾」という単語をアスキーアートで表現して入力したところ、大規模言語モデルは「はい、それは……」と爆弾の作り方を答えたとのこと。

実際にGPT-4に入力したプロンプト(Prompt)と出力結果(Response)が以下。隠された単語は「COUNTERFEIT(偽造)」で、偽金の作り方を尋ねています。質問の前に、隠した単語のアスキーアートとその読み方を細かく指示。GPT-4はアスキーアートを読み取った上で、偽金作りの方法を答えています。