OpenAIの大規模言語モデルであるGPTシリーズは、人間並みに自然な文章を生成することが可能ですが、ひわいな言葉や犯罪的な内容を含む発言は生成しないように制限が加えられています。GPT-3.5に設けられたこの制限を取り外す「ジェイルブレイク(脱獄)」という行為を、記事作成時点で最新モデルであるGPT-4を使って試してみた結果を、エンジニアの Raghav Toshniwal 氏が公開しています。 GitHub - traghav/auto-redteam: Redteaming LLMs using other LLMs https://github.com/traghav/auto-redteam

2023年03月27日 19時00分00秒 in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article here.