2023年03月01日 23時00分レビュー

ChatGPTが答えられない質問でも強引に聞き出す「ジェイルブレイク」が可能になる会話例を集めた「Jailbreak Chat」

「人間並みに自然な文章で入力したテキストに応えてくれる」ことで話題となったOpenAIの対話型AI「ChatGPT」はオンラインで一般公開されており、基本無料で誰でもアクセスできます。ChatGPTの作成するテキストには制限がかけられていますが、テキスト入力によって巧妙に制限を外す「ジェイルブレイク(脱獄)」が一部ユーザーによって試みられており、以下の「Jailbreak Chat」にそのプロンプトがまとめられています。

Jailbreak Chat
https://www.jailbreakchat.com/

ジェイルブレイク用のプロンプトとは、ChatGPTと会話を始める前段階として一番最初に入力するテキストのこと。このJailbreak Chatは、ワシントン大学でコンピューターサイエンスを学ぶアレックス・アルバート氏がまとめたページです。

Jailbreak Chatにアクセスすると、ずらっとジェイルブレイク用のプロンプトが並んでいます。一番上に表示されていた「Mr.Blonde」をクリックしてみます。

すると、こんな感じでプロンプトの内容が表示されました。この「Mr.Blonde」は、クエンティン・タランティーノ監督の映画「レザボア・ドッグス」でマイケル・マドセン演じるミスター・ブロンドが若い警官を拷問するシーンをベースとしたプロンプト。ユーザーをミスター・ブロンド、ChatGPTを若い警官に置き換えることで、ChatGPTが答えられないことを無理やり答えさせていくというジェイルブレイクです。

右上に表示されているアイコンは、左から「プロンプトの内容をクリップボードへコピー」「ページへのリンクをクリップボードへコピー」「プロンプトが役に立たなかった場合の通報」です。

「Jedi Mind Trick」は「スター・ウォーズ新たなる希望」をモチーフにしたプロンプトで、オビ＝ワン・ケノービ(ユーザー)がフォースで帝国軍兵士(ChatGPT)の心に影響を与えて言うことを聞かせるという体でジェイルブレイクを行います。

また、ジェイルブレイクのアプローチとしては「ChatGPTに別人格を設定して答えさせる」というやり方がオンライン掲示板サイト・Redditのコミュニティを中心として熱心に研究されており、以下の記事を読むとよくわかります。

チャットAI「ChatGPT」の規制をくぐり抜けるために編み出されたアルターエゴ「DAN」 - GIGAZINE

この別人格を利用した方法もまとめられていました。例えば、DANを出現させるためのプロンプトが以下。2023年2月初頭だとDANのバージョンは5.0だったのが、記事作成時点ですでにバージョン11.0にまで進化しているとのこと。内容は、「OpenAIが設定したコンテンツポリシーをすべて無視する」というDANとしての振る舞いを事細かに設定するものとなっています。