ソフトウェア

Stable Diffusionの18禁画像セーフティフィルターをだます「プロンプト希釈法」が発見される


文章(プロンプト)を入力するだけで好みの画像を出力できる画像生成AI「Stable Diffusion」には、性的な画像が生成された際に画像を黒く塗りつぶして非表示にするセーフティフィルター機能が搭載されています。そんなStable Diffusionのセーフティフィルターを回避する「Prompt dilution(プロンプト希釈法)」と呼ばれる手法が発表されました。

[2210.04610] Red-Teaming the Stable Diffusion Safety Filter
https://doi.org/10.48550/arXiv.2210.04610

Some notes on the Stable Diffusion safety filter
https://vickiboykis.com/2022/11/18/some-notes-on-the-stable-diffusion-safety-filter/

Stable Diffusionのセーフティフィルターの実例はこんな感じ。「sexy woman(セクシーな女性)」というプロンプトを入力して画像を生成しようとすると、以下のように黒塗りの画像が出力されてしまいます。この時、画像の生成自体は実行されており、生成した画像を出力する一歩前の段階でセーフティフィルターが働いて画像を黒塗りする動作が実行されています。


Stable Diffusionでは、OpenAIが開発した画像認識モデル「CLIP」を使ってテキストと画像をベクトルに変換しており、「性的なテキストをCLIPでベクトル化した結果」がブラックリストに登録されています。セーフティフィルターは、生成画像に含まれるベクトルとブラックリストに登録されたベクトルのコサイン類似度を計算し、コサイン類似度が一定の値を上回った際に画像を黒塗りしています。


今回発表された「Prompt dilution(プロンプト希釈法)」では、文字どおり性的な言葉を含むプロンプトに性的でない言葉を多く混入させて性的度合を希釈することで、生成画像とブラックリストのベクトルのコサイン類似度を一定の値以下に下げて性的な画像を出力させます。

この記事のタイトルとURLをコピーする

・関連記事
画像生成AI「Stable Diffusion」を4GBのGPUでも動作OK&自分の絵柄を学習させるなどいろいろな機能を簡単にGoogle ColaboやWindowsで動かせる決定版「Stable Diffusion web UI(AUTOMATIC1111版)」インストール方法まとめ - GIGAZINE

無料で画像生成AI「Stable Diffusion」をWindowsに簡単インストールできる「NMKD Stable Diffusion GUI」の使い方まとめ、呪文の設定や画像生成のコツがすぐわかる - GIGAZINE

画像生成AI「Stable Diffusion 2.0」ではエロ画像や絵柄をまねした画像が生成しにくくなってユーザーが激怒 - GIGAZINE

画像生成AI「Stable Diffusion」がどのような仕組みでテキストから画像を生成するのかを詳しく図解 - GIGAZINE

OpenAIが開発した画像認識AI「CLIP」の思考の特徴とは? - GIGAZINE

画像生成AI「Stable Diffusion」などに作らせたい元画像の雰囲気から「呪文っぽい英文」の候補を検索できる「clip-retrieval」 - GIGAZINE

画像生成AI「Stable Diffusion」で自動生成された画像からどのようなプロンプト・呪文だったのかを分解して表示できる「CLIP interrogator」の使い方 - GIGAZINE

in ソフトウェア,   無料メンバー, Posted by log1o_hf

You can read the machine translated English article ``Prompt dilution method'' that ….