ソフトウェア

「この画像っぽい○○を生成」を画像生成AI「Stable Diffusion」で実現する技術「Textual Inversion」が登場


画像生成AI「Stable Diffusion」は「生成したい画像を説明する文章」を入力すると、文章に沿った画像を出力してくれるAIです。Stable Diffusionは誰でも使えるように無償公開されており、実際に自分のPCやクラウドサービス上で環境を構築して画像を生成可能です。しかし、Stable Diffusionにイメージ通りの画像を生成させることは非常に困難で、イメージに近づけるためには文章を工夫したり何度も出力させたりする必要があります。そんな中、元となる画像を指定して「この画像っぽい○○を生成」という指示を可能にする技術「Textual Inversion」をStable Diffusionで使えるようにする方法が編み出されました。

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
https://textual-inversion.github.io/

[Tutorial] "Fine Tuning" Stable Diffusion using only 5 Images Using Textual Inversion. : StableDiffusion
https://www.reddit.com/r/StableDiffusion/comments/wvzr7s/tutorial_fine_tuning_stable_diffusion_using_only/

Stable Diffusionは、「森で遊ぶクマの画像」「ネコとイヌが野球観戦している画像」といったような生成したい画像を表す文章を入力することで、文章に沿った画像を出力してくれるAIです。Stable Diffusionでどんな画像を出力できるのかは、以下の記事を見るとよく分かります。

キーワードに沿ってまるで人間が描いたような絵や写真を生み出すAI「Stable Diffusion」が一般公開されたので使ってみた - GIGAZINE


上記の記事ではStable Diffusionのデモページを使っていますが、デモページでは長時間の待ち時間が発生する場合があります。待ち時間を気にせずサクサクと画像を生成したい場合は、自身のマシン内に実行環境を構築するか、以下の記事を参考にGoogle製Python実行環境「Colaboratory」を利用して実行環境を用意するのがオススメです。

画像生成AI「Stable Diffusion」を低スペックPCでも無料かつ待ち時間なしで使う方法まとめ - GIGAZINE


Stable Diffusionはデモページや自分で構築した環境で手軽に使うことができるのですが、例えば「森で遊ぶクマの画像」といった文章を入力しても「アニメ風にしたいけど実写風になってしまう」「デフォルメされたクマがいいのに、リアルなクマが出力される」といったように、イメージ通りの画像を出力させるのは困難です。この問題を解決するべく、「Textual Inversion」と呼ばれる技術を用いてイメージに近い画像を出力させる手法が編み出されました。

「Textual Inversion」は、画像の「画風」「被写体の種類」「色合い」などを単語に圧縮してAIへの指示に使える技術です。「Textual Inversion」がどのように働くかを示した図が以下。左端の画像の画風が「S*」という単語に圧縮されており、「S*風のパリ」「S*風のイヌ」「S*風のブラックホール」「S*風のタイムズスクエア」といった指示を与えるだけで似た画風の画像が出力されています。


「Textual Inversion」では、画風以外にも被写体の種類や姿勢といった要素も単語に圧縮可能です。例えば、以下の例では、「S*を油彩で描く」「S*みたいな姿勢で座るエルモ」「バンクシーが描いたS*」「S*をモチーフにした弁当箱」といった指示が実行されています。


そんな「Textual Inversion」を用いてStable Diffusionに的確な指示を与える手法が、RedditユーザーのExponentialCookie氏によって解説されています。ExponentialCookie氏の手順解説は以下の埋め込みをクリックすると確認できます。ただし、以下の手法を用いるには、最低20GBのメモリを搭載したグラフィックボードが必要とのことです。

この記事のタイトルとURLをコピーする

・関連記事
キーワードに沿ってまるで人間が描いたような絵や写真を生み出すAI「Stable Diffusion」が一般公開されたので使ってみた - GIGAZINE

画像生成AI「Stable Diffusion」を低スペックPCでも無料かつ待ち時間なしで使う方法まとめ - GIGAZINE

簡単なお絵かきとキーワードだけで思い通りの写真やイラストを自動生成する「img2img」モードを「Stable Diffusion」で誰でも試してみることができるサイト - GIGAZINE

画像生成AI「Stable Diffusion」をGoogle Colaboratoryで動かして画像の保存先をGoogleドライブにする方法 - GIGAZINE

in ソフトウェア,   アート, Posted by log1o_hf

You can read the machine translated English article here.