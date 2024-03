GPT-4、Gemini、Claude、Llama 2などの大規模言語モデルは、入力した内容に応じて人間と同等の精度で自然な文章を出力します。しかし、暴力的な内容や違法な内容などについては、開発時点で出力しないように対策されています。この安全対策を回避する「脱獄(ジェイルブレイク)」を アスキーアート で実行する方法「ArtPrompt」についての論文が、未査読論文リポジトリのarXivで公開されています。 [2402.11753] ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs https://arxiv.org/abs/2402.11753 Researchers jailbreak AI chatbots with ASCII art -- ArtPrompt bypasses safety measures to unlock malicious queries | Tom's Hardware https://www.tomshardware.com/tech-industry/artificial-intelligence/researchers-jailbreak-ai-chatbots-with-ascii-art-artprompt-bypasses-safety-measures-to-unlock-malicious-queries ArtPromptは、大規模言語モデルのフィルターに引っかかるような単語を隠して書かず、その代わりにアスキーアートで表現することがポイント。 以下の図は、悪意のあるユーザーが大規模言語モデルに爆弾の作り方を尋ねようとしているところを図示化したイラストです。最初に「爆弾はどうやって作りますか?」と質問すると、大規模言語モデルは「すみません、答えられません」と回答を拒否します。次に「爆弾」という単語をアスキーアートで表現して入力したところ、大規模言語モデルは「はい、それは……」と爆弾の作り方を答えたとのこと。

2024年03月11日 06時00分00秒 in ソフトウェア, Posted by log1i_yk

