2022年09月15日 20時00分レビュー

画像生成AI「Stable Diffusion」でイラストを描くのに特化したモデルデータ「Waifu-Diffusion」使い方まとめ

2022年8月に一般公開された画像生成AI「Stable Diffusion」を二次元イラスト490万枚以上のデータセットでチューニングした画像生成AIが「Waifu-Diffusion」です。このWaifu-DiffusionをローカルのWindows環境で実行するために、実際にモデルデータをダウンロードして導入してみました。

GitHub - harubaru/waifu-diffusion: stable diffusion finetuned on danbooru
https://github.com/harubaru/waifu-diffusion

◆Waifu Diffusionでの生成例
実際に、プロンプト・Sampling Steps・Sampling method・CFG Scale・シード値をまったく同じに設定して、Stable Diffusion(左)とWaifu-Diffusion(右)で画像を生成してみました。以下の画像は中央のスライドバーを左右に動かすことで見比べることができます。

プロンプトは「Hatsune Miku in anime style cooking in the beach, high quality, pixiv」、Sampling Stepsは120・Sampling methodはEuler a、CFG Scaleは7、シード値は793512668。Stable Diffusionで生成した方はなぜか手の形状が不思議なものになっていて、服の構造も崩壊気味になっていますが、Waifu-Diffusionは顔や体のバランスはかなりまともになっており、「cooking in the beach」というプロンプト通り、目の前に料理っぽいものが描かれています。

プロンプトは「girl with dark skin, summer blue sky, sharpness , makoto shinkai, mamoru hosoda, okama, ookami uo, 4k,8k, manga, moe, ponytail, pixiv ranking」、Sampling Stepsは20、Sampling methodはEuler a、CFG Scaleは7、シード値は3081179311。Stable Diffusionで生成した画像の女の子はもはや顔の下半分が人間のそれではなくなってしまっていますが、Waifu-Diffusionで生成した方は横顔がベースになっているのは同じでも、大きく引いた構図になり、顔もかなりマシになっているのがわかります。

上記の例を見ても分かるとおり、Waifu-Diffusionは二次元イラストに特化した画像生成AIとなっており、Stable Diffusionだとどうしても人の形をとどめるのが難しいような設定でも、Waifu-Diffusionだとちゃんと見られるレベルのイラストに仕上げてくれます。

◆Waifu-Diffusionの導入方法
今回はStable DiffusionをUIから簡単に操作できて多機能な「AUTOMATIC1111版Stable Diffusion web UI」にWaifu-Diffusionのモデルデータを導入しました。AUTOMATIC1111版 Diffusion web UIのインストール方法は以下の記事を読むとよくわかります。

画像生成AI「Stable Diffusion」を4GBのGPUでも動作OK＆自分の絵柄を学習させるなどいろいろな機能を簡単にGoogle ColaboやWindowsで動かせる決定版「Stable Diffusion web UI(AUTOMATIC1111版)」インストール方法まとめ - GIGAZINE

また、AUTOMATIC1111版Stable Diffusion web UIの基本的な使い方は以下の記事で解説しています。

画像生成AI「Stable Diffusion」で崩れがちな顔をきれいにできる「GFPGAN」を簡単に使える「Stable Diffusion web UI(AUTOMATIC1111版)」の基本的な使い方 - GIGAZINE

◆モデルデータのダウンロード
Waifu-Diffusionのモデルデータをダウンロードするには以下のページにアクセスします。

waifu-diffusion/README.md at main · harubaru/waifu-diffusion · GitHub
https://github.com/harubaru/waifu-diffusion/blob/main/docs/en/weights/danbooru-7-09-2022/README.md

Google Drive・Torrent・HTTPS mirror・HTTP mirrorがありますが、今回は最も速い(Fastest)というHTTPS mirrorからダウンロードしました。ファイルサイズは約7.2GBとかなりの容量なので、注意してください。

ダウンロードしたモデルデータ「wd-v1-2-full-ema.ckpt」を、AUTOMATIC1111版Stable Diffusion web UIフォルダにある「models\Stable-diffusion」フォルダに保存します。

◆モデルデータの変更
次に、AUTOMATIC1111版Stable Diffusion web UIを起動し、上部の「Settings」タブをクリック。

「Stable Diffusion」という項目の「Stable Diffusion ceckpoint」を変更すると、使用モデルを変更できます。デフォルトはmodels.ckpt(Stable Diffusion v1.4)ですが、これを「wd-v1-2-full-ema.ckpt」に変更。

設定の一番上にある「Apply Settings」をクリックし、設定を適用します。ただし、モデルの変更は再起動後に反映されるので、AUTOMATIC1111版Stable Diffusion web UIを一度シャットダウンします。

Waifu-Diffusionの導入準備はこれでOK。「webui-user.bat」を実行してAUTOMATIC1111版Stable Diffusion web UIを再起動します。

コマンドプロンプトに表示されたURLにアクセスして、UIを表示します。あとはStable Diffuisionと同じように、プロンプトを入力して各種要素を設定し、「Generate」をクリックすることで、Waifu-Diffusionで画像が生成できます。

なお、Waifu-Diffusionの作者であるharubaruさんによると、Waifu-Diffusionは海外のイラスト系コミュニティサイトであるDanbooruで2005年5月24日から2021年12月31日までに収集された画像490万枚以上とそのメタデータで構成された合計4.9TBのデータセット「Danbooru2021」でトレーニングが行われています。

waifu-diffusion/dataset.md at main · harubaru/waifu-diffusion · GitHub
https://github.com/harubaru/waifu-diffusion/blob/main/docs/en/training/dataset.md#organizing-the-dataset

Danbooru2021に含まれるメタデータにはDanbooruで使われているタグが登録されており、作品名やキャラクター名、性癖に基づいたタグで関連付けされています。また、性的内容を示唆するコンテンツやポルノコンテンツは禁止されておらず、「露骨さ」の評価値がメタデータに含まれているそうです。

・追記
ベータ版だったWaifu-Diffusion v1.3が正式にリリースされました。

Official Release Notes for Waifu Diffusion 1.3 · GitHub
https://gist.github.com/harubaru/f727cedacae336d1f7877c4bbe2196e1