画像生成AI「Stable Diffusion」などに作らせたい元画像の雰囲気から「呪文っぽい英文」の候補を検索できる「clip-retrieval」



文章を入力するだけで好みの画像を生成してくれるAI「Stable Diffusion」は、2022年8月に一般公開されて以降大きな注目を集めており、PCに簡単にインストールできるGUIアプリや低スペックPCでも問題なく使える手法などが続々と編み出されています。しかし、Stable Diffusionでは英語の文章を入力する必要があり、英語が苦手な人には取っつきにくく感じます。参考画像から「画像を説明する英文」を簡単に検索できるシステム「clip-retrieval」を使えばStable Diffusionに入力する英文を一発で取得可能なので、使い方をまとめてみました。



GitHub - rom1504/clip-retrieval: Easily compute clip embeddings and build a clip retrieval system with them

https://github.com/rom1504/clip-retrieval



Stable Diffusionは「森で遊ぶクマ」「アイスクリームを食べる男の子」といった指示を英語で入力することで、指示通りの画像を生成してくれるAIです。Stable Diffusionは公式デモサイトで試せる他、NVIDIA製GPUを搭載したPC上のPython環境や、「AIピカソ」などのスマートフォン向けアプリでも利用可能。NVIDIA製GPUを搭載したPCの場合、「NMKD Stable Diffusion GUI」を使えば難しい作業の必要なく画像生成を実行できます。



無料で画像生成AI「Stable Diffusion」をWindowsに簡単インストールできる「NMKD Stable Diffusion GUI」の使い方まとめ、呪文の設定や画像生成のコツがすぐわかる - GIGAZINE





上記の通り、Stable Diffusionを簡単に使える環境は徐々に整いつつあるのですが、記事作成時点では、Stable Diffusionは日本語での指示に対応していません。このため、Stable Diffusionを用いて画像を生成するには英文を使いこなす必要があり、英語が苦手な人には難しく感じてしまいます。clip-retrievalは「画像を入力すると似た画像を説明付きで表示する」という機能を持ったシステムで、Stable Diffusionで生成した画像の参考画像を入力することで、Stable Diffusionに入力するべき英文のヒントを得ることができます。



clip-retrievalはローカルにインストールすることでも利用可能ですが、今回はclip-retrievalの開発者が公開しているウェブアプリ「Clip front」を使ってみます。まずは以下のリンクをクリックしてClip frontにアクセスします。



Clip front

https://rom1504.github.io/clip-retrieval/



Clip frontにアクセスすると、左側にメニュー、上部に入力欄が表示されます。今回は画像を入力したいので、画面右上のカメラアイコンをクリック。





ファイル選択ダイアログが表示されたら、入力したい画像を選択します。





今回は、以下の「女性と犬がクリスマスツリーの前で遊ぶ写真」を選択しました。





画像を入力すると、入力画像に似た画像が説明付きでズラリと表示されます。なお、説明文には英語以外の言語で記されたものも含まれています。





画像の上にマウスカーソルをのせると、説明分の全文が表示されます。





また、虫眼鏡アイコンをクリックすると……





説明分が入力欄に入力され、その説明分に沿った画像が検索されます。今回は「happy woman in sweater sitting on floor with labrador near christmas tree(クリスマスツリーの近くでラブラドールと一緒に床に座っているセーター姿の幸せな女性)」という説明分が表示されました。入力欄に表示された説明するをコピーすれば、Stable Diffusionでの画像生成に活用できます。





上記の説明分で画像生成を行った結果、以下のように「クリスマスツリーの近くでイヌと一緒に床に座っているセーター姿の女性」の画像が出力されました。「生成した画像の参考画像はあるものの、適切な英文が分からない」という人はclip-retrievalを使ってみるのがオススメです。