2022年10月12日 23時00分レビュー

イラスト画像から逆向きに画像生成AIのプロンプト用にDanbooruタグを見つける「Deep Danbooru」を「AUTOMATIC1111版Stable Diffusion web UI」で使う方法まとめ

Stable Diffusionなどの画像生成AIは、「プロンプト」と呼ばれる文字条件から画像を生成します。Waifu-DiffusionやNovelAIなど、二次元イラストに特化した画像生成AIは、二次元イラストサイトのDanbooruにアップロードされた画像で学習しています。そこで、Stable DiffusionではなくDanbooruのタグで画像を生成する手助けになる機能「Deep Danbooru」が、Stable DiffusionのウェブUIの決定版である「AUTOMATIC1111版Stable Diffusion web UI」で簡単に利用できるようになったので、実際に使ってみました。

GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI
https://github.com/AUTOMATIC1111/stable-diffusion-webui

GitHub - KichangKim/DeepDanbooru: AI based multi-label girl image classification system, implemented by using TensorFlow.
https://github.com/KichangKim/DeepDanbooru

AUTOMATIC1111版Stable Diffusion web UIのインストールやアップデートの方法は以下の記事にまとめられています。

画像生成AI「Stable Diffusion」を4GBのGPUでも動作OK＆自分の絵柄を学習させるなどいろいろな機能を簡単にGoogle ColaboやWindowsで動かせる決定版「Stable Diffusion web UI(AUTOMATIC1111版)」インストール方法まとめ - GIGAZINE

また、AUTOMATIC1111版Stable Diffusion web UIの基本的な使い方については以下の記事を読むとよくわかります。

画像生成AI「Stable Diffusion」で崩れがちな顔をきれいにできる「GFPGAN」を簡単に使える「Stable Diffusion web UI(AUTOMATIC1111版)」の基本的な使い方 - GIGAZINE

Deep Danbooruは、Stable Diffusion web UIを開発するAUTOMATIC1111氏がオリジナルに開発したものではなく、2019年に開発者のKichang Kim氏が公開した技術です。ネット上の膨大なイラストデータを学習したディープラーニングで、美少女イラストからDanbooruのタグと互換性があるタグを推定することが可能です。

「Deep Danbooru」のソースコード公開 – KANOTYPE BLOG
https://blog.kanotype.net/?p=833

美少女イラストのタグ付けを行う「Deep Danbooru」の更新 – KANOTYPE BLOG
https://blog.kanotype.net/?p=812

美少女イラストのタグ付けを行う「Deep Danbooru」の実験公開 – KANOTYPE BLOG
https://blog.kanotype.net/?p=804

Deep DanbooruをAUTOMATIC1111版Stable Diffusion web UIで利用するため、まずAUTOMATIC1111版Stable Diffusion web UIを最新版に更新してから、「webui-user.bat」をメモ帳やVimなどのテキストエディタで開きます。

6行目に以下の項目があることを確認します。

set COMMANDLINE_ARGS=

この行を以下の通りに書き換えて、保存します。

set COMMANDLINE_ARGS=--deepdanbooru

webui-user.batを実行するとコマンドプロンプトが起動しますが、「Installing deepdanbooru」と表示されるので少し待ちます。

インストール準備が整うと、以下のように通常どおりにStable Diffusion web UIが起動します。

ブラウザでStable Diffusion web UIを開き、上部にある「img2img」タブをクリックし、「ここに画像をドロップまたはクリックしてアップロード」と書かれた欄をクリックし、タグを推定したい画像を選びます。

今回は「姫とゲーマー」の表紙イラストを読み込んで、タグを推定してみます。イラストが表示されたら、右上の「Interrogate DeepBooru」をクリックします。

初回はGitHubからDeep Danbooruのダウンロードが行われます。

しばらく待つと、イラストの上部にあるプロンプト欄に、「1girl, d, blazer, blush, bow, eyebrows visible through hair, jacket, looking at viewer, open clothes, open jacket, open mouth, pleated skirt, purple eyes, purple hair, school uniform, short hair, skirt, smile, solo, thighhighs」というタグが表示されました。

コマンドプロンプトを見ると、以下のように関連性の高いタグから順番に推定されて並んでいます。

今度はこのタグを、Danbooru由来のデータセットで学習したWaifu-Diffusionにプロンプトと入力し、画像を出力してみます。Waifu-DiffusionをAUTOMATIC1111版Stable Diffusion web UIに導入する方法は以下の記事にまとめられています。

画像生成AI「Stable Diffusion」でイラストを描くのに特化したモデルデータ「Waifu-Diffusion」使い方まとめ - GIGAZINE

「txt2img」のプロンプト欄に推定されたタグを放り込み、生成の設定を入力して、「Generate」をクリックします。なお、今回使ったモデルはWaifu-Diffusion v1.2で、サンプラーEuler a・生成ステップ数80・解像度512×768ピクセル・CFGスケール7に設定し、バッチカウントを5にしています。

生成されたイラスト5枚はこんな感じ。紫色の髪の毛や目、前を開けた制服のブレザー、口を開けた笑顔という部分が反映されています。背景やゲーマー要素がタグに反映されなかったため、イラストには含まれていませんが、大まかなイラストの印象をタグとして抽出することで、共通した印象を持つイラストを生成することが可能になります。

今度は、Waifu-Diffusionであらかじめ生成した画像のタグを、Deep Danbooruで推定してみます。なお、このイラストはプロンプトは「Masterpiece extremely detailed CG unity 8k wallpaper of a loli girl with silver long wavy hairstyle and white marble glowing skin and perfect symmetrical pretty face with blush cheeks and glaring red eyes, wearing fantasic dress with many frills, standing in the baroque architecture, art by krenz cushart and violet_evergarden, golden hour lighting, strong rim light, intense shadows, bokeh」で、ネガティブプロンプトに「out of frame, cropped」を設定し、解像度512×768ピクセル・サンプラーEuler a・生成ステップ数100・CFGスケール9・シード値983541770で、Waifu-Diffusion v1.2で生成したものです。

img2imgタブで読み込んで分析したところ、推定されたタグは「1girl, bangs, bare shoulders, blurry, blurry background, blurry foreground, breasts, closed mouth, depth of field, detached sleeves, dress, hair between eyes, long hair, looking at viewer, outdoors, red dress, red eyes, red sleeves, silver hair, solo, very long hair, water」でした。銀髪や赤い瞳、赤いドレス、前髪の様子、背景のボケ部分などもタグで示されていますが、なぜか「water」という謎の要素が追加されています。

このタグを、解像度512×768ピクセル・生成ステップ数100・サンプラーEuler a・CFGスケール9で、バッチスケール5で生成したイラストが以下。赤いドレスや赤い瞳という部分は反映されていますが、追加された「water」によって、背景に海岸や川らしき風景が広がっているのがわかります。また、髪の色は銀髪というよりも赤髪となっているイラストが多く、左下の1枚にいたっては1girlと言っているのに2人の女の子が描かれていました。

今度は同じタグと設定で、モデルをWaifu-Diffusion v1.3(epoch数8、ハッシュ値d12b4159)に変更してイラストを生成してみました。すべてちゃんと銀髪で描かれているだけではなく、画像としての完成度も上がっており、Waifu-Diffusionのバージョンが上がったことでより精度の高いイラストが生成されたことが一目でわかります。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2022年10月12日 23時00分00秒 in レビュー, ソフトウェア, ネットサービス, ウェブアプリ, マンガ, アニメ, アート, Posted by log1i_yk

You can read the machine translated English article How to use ``Deep Danbooru'' in ….