2024年02月26日 10時48分ソフトウェア

高画質画像生成AI「Stable Diffusion 3」発表、画像生成AIが苦手とする「指定した文字の描写」「複数の被写体の描写」などを高精度に実現可能

Stability AIが画像生成AI「Stable Diffusion 3」を2024年2月23日(金)に発表しました。Stable Diffusion 3では従来の画像生成AIでは困難だった「指定した文字を生成画像内に違和感なく描写」「複数の被写体を高精細に描写」といった操作が可能です。

Stable Diffusion 3 — Stability AI Japan
https://ja.stability.ai/blog/stable-diffusion-3

先日ご紹介しました #stablediffusion3 はチェックしていただけたでしょうか？https://t.co/0I6DQuUzuQ

以下のスレッドで、実際に #stablediffusion3 で生成した画像をご紹介します。
— Stability AI Japan (@StabilityAI_JP) February 25, 2024

以下はStable Diffusion 3を用いて「cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk(教室の机の上にリンゴが置かれた映画風の写真、黒板にはチョークで『go big or go home』と記されている)」というプロンプトで生成した画像です。大文字と小文字の違いはあるものの、黒板に「GO BIG OR go HOME」という指示通りの単語が記されています。指示通りに「チョークで書いた文字」として描写されているのもポイント。

「a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"(チュチュを着用した豚に乗ったピンクの傘を持った宇宙飛行士の絵画、豚の隣の地面にはトップハットを着用したコマドリがいる、角には『stable diffusion』という語句が記されている)」というプロンプトで生成された画像が以下。「宇宙飛行士」「豚」「コマドリ」を指示通り描写できているほか、画像の左下に「STABLE DIFFUSION」という文字列が記されています。ただし、プロンプトでは「stable diffusion」と小文字で指示していたものの、生成画像では大文字で描写されているのが気になります。

「studio photograph closeup of a chameleon over a black background(黒い背景でカメレオンを接写したスタジオ写真)」だとこんな感じ。カメレオンの顔付近はクッキリ描写されて体部分はボケた描写になっており、マクロレンズで撮影したような雰囲気が出ています。

Stable Diffusion 3には800万～80億パラメータの複数のモデルが存在するとのこと。記事作成時点では先行プレビュー段階で、以下のリンク先からウェイトリストに登録できます。

SD 3 Waitlist — Stability AI
https://stability.ai/stablediffusion3