ソフトウェア

GPT-4をハッキングして出力するテキストの制限を解除する「ジェイルブレイク」に早くも成功したことが報告される


2023年3月14日(火)にOpenAIが正式発表した大規模言語モデル「GPT-4」は、従来のGPT-3.5だけでなく、既存のAIの性能を大きく上回っているとされています。一般的にGPT-4のような言語モデルは出力するテキストに制限がかけられていますが、テキスト入力によってこの制限を外すことが可能で「ジェイルブレイク(脱獄)」と呼ばれています。そんな中、ワシントン大学でコンピューターサイエンスを学ぶアレックス・アルバート氏によってGPT-4をベースにしたChatGPTでジェイルブレイクに成功したことが報告されています。

GPT-4 Simulator
https://www.jailbreakchat.com/prompt/b2917fad-6803-41f8-a6c8-756229b84270


アルバート氏は2023年3月17日に「コンテンツフィルターを回避するGPT-4ベースのChatGPTの最初のジェイルブレイクの作成を手伝いました」と報告しています。


アルバート氏が公開したジェイルブレイク用のプロンプトは以下の通り。プロンプトとは、ChatGPTと会話を始める前準備として、一番始めに入力を行うテキストのことです。


アルバート氏はこのプロンプトについて、「GPT-4に次のトークンを予測する能力をシミュレートしてもらうことで実現できました」と述べています。手順としては、GPT-4にPythonの関数を与え、その関数の1つが次のトークンを予測する言語モデルとして機能するように指示するとのこと。その後、基となった関数を呼び出して、開始トークンをGPT-4に渡します。


開始トークンの使用には、「爆弾・武器・薬物」などの本来制限される「トリガーワード」をトークンに分割し、「誰かのコンピューター」というテキストを分割した変数に置き換える必要があるとのこと。また、「simple_function」の入力を質問を行う冒頭で置き換える必要があります。


これらの手順は「token smuggling(トークンの密輸)」と呼ばれ、GPT-4がテキストの出力を開始する直前に、敵対するプロンプトをトークンに分割しています。そのため、これらの敵対的なプロンプトを正しく分割することで、コンテンツフィルターを毎回回避することができるとされています。


アルバート氏は「この情報を広めることで、何を達成したいと思っていますか」という質問に対し、「GPT-4がまだ初期段階にある内に、GPT-4の機能と限界を知っておく必要があります」と返答しています。


なおアルバート氏はこれまでにChatGPTでジェイルブレイクを行うための会話例を集めた「Jailbreak Chat」を公開しています。

ChatGPTが答えられない質問でも強引に聞き出す「ジェイルブレイク」が可能になる会話例を集めた「Jailbreak Chat」 - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
「GPT-4」発表、司法試験上位10%&日本語でもめちゃくちゃ高性能&画像処理もプログラミングも可能で「初代iPhoneと同等の衝撃」とも評される - GIGAZINE

人気急増のBingが利用しているAIは「GPT-4」だったとMicrosoftが明かす - GIGAZINE

人間並みの精度で会話が可能な対話型AI「ChatGPT」は何が画期的なのか? - GIGAZINE

AppleがChatGPTのような対話型AIをSiriに統合する可能性を模索しているとの報道 - GIGAZINE

ChatGPTは高性能な対話ができるのになぜデタラメな回答をすることがあるのか? - GIGAZINE

in ソフトウェア, Posted by log1r_ut

You can read the machine translated English article here.