画像生成AI「Stable Diffusion」をKritaで使えるようにするオープンソースのプラグイン登場



オープンソースのペイントソフト「Krita」で、テキストや画像から自動で画像を生成することができる話題のAI「Stable Diffusion」を利用できるようになるプラグインが複数登場しています。



Stable Diffusionは、入力したテキストに沿って画像を生成する「text2img」や、大まかな線画のようなラフな画像からでも精細な画像を生成することができる「img2img」で、画像生成が可能なAIです。Stable Diffusionはウェブ上で使えるデモ版が存在するだけでなく、Creative ML OpenRAIL-Mライセンスの下で配布されているものをローカル環境で実行することも可能。実際にStable Diffusionを使う方法はさまざまあるのですが、低スペックPCでも無料かつ待ち時間なしで使う方法が以下の記事の通り。



そんなStable Diffusionを、Krita上で使えるプラグインのひとつが「sddebz」です。sddebzはWeb UIベースのプラグインで、出力できる画像はRGBAの8bitカラーのもののみ。また、画像を出力するにはレイヤーをしていする必要もあります。



sddebzはWeb UIベースのプラグインで、実際にどんな風に動作するのかは以下の画像をクリックすると再生される動画の通り。





「scifi concept art of a futuristic city near to a big alke by greg rutkowski, cumulonimbus clouds, sunset, nostalgic, very very very beatiful art, cinematic lighting, bright pastel color, blue sky」(Greg Rutkowski作の大きな池の近くにある未来都市のSFコンセプトアート。積乱雲、夕焼け、ノスタルジック、とてもとても美しいアートで、映画のような照明と、明るいパステルカラー、青い空が特徴)と入力。





出力に少しだけ時間がかかります。





出力結果が以下の赤枠内。





範囲選択してから……





次は「portrait of beautiful female, blonde hair, feminine, mature, beaatiful, upper body:2 intricate, elegant, highly detailed, digital painting, artstation, concept art, smooth, sharp focus, illustration: 2 art by gaston bussiere and alphonse mucha:2」(美しい女性の肖像、金髪、女性、成熟した、美しい、上半身:2、複雑、エレガント、非常に詳細、デジタル絵画、アートステーション、コンセプトアート、滑らか、シャープフォーカス、イラスト:2、ガストン・ビュシエールとアルフォンス・ミュシャのアート:2)と入力。





すると、選択した範囲だけイラストのタッチが変化しました。





他にも、Stable DiffusionベースのKritaアドオン「qweryty」もあります。qwerytyの特徴はStable Diffusionの「text2img」と「img2img」の両方が使えるというだけでなく、Real-ESRGANベースのアップスケーリングにも対応しているという点。



qwerytyを使ったどんな風に画像を生成できるかは以下の動画の通り。





他にも、「koi(Krita Opensource Img2Img:StableDiffusion)」というKritaで使えるStable DiffusionベースのAI画像生成プラグインもあります。koiはGoogle Colaboratoryのバックエンドサーバーを利用したオープンソースプロジェクトで、アートへの参入障壁を下げて誰もが利用できるようにするため、あえて早期リリースに踏み切ったと説明されています。



この他、NVIDIAのGeForce RTX 3060 Tiを搭載したPC上で動作可能なKritaプラグインを開発中というユーザーも海外掲示板のRedditに登場しています。実際に動作している様子は以下の埋め込み動画の通りで、ペンで簡単に描いたヒヨコのイラストがプラグインにより「よりリアルなタッチのヒヨコ」に進化したり、「スーツを着たヒヨコ」に進化したりする様子がチェックできます。





以下の動画では写真の一部を消してUFOやエイリアンを出力しています。





更に以下の動画では、テキストから画像を出力。入力しているテキストは一つ目が「dog wearing a suit, highly detailed」(精細なスーツを着た犬)で、2つ目が「cat wearing a suit, highly detailed」(精細なスーツを着た猫)です。