2023年06月23日 13時00分レビュー

画像生成AI「Stable Diffusion」の高性能モデル「SDXL 0.9」をStability AIが発表、画像と構図のディテールが大幅に改善

画像生成AI「Stable Diffusion」を開発したAI研究企業のStability AIは、2023年4月に従来の画像生成AIを大幅に強化した「Stable Diffusion XL(SDXL)」のベータ版をリリースしました。そして現地時間の6月22日、SDXLベータ版から画像と構図のディテールが大幅に改善された新モデル「SDXL 0.9」がリリースされました。

Stability AIはこれまでの #StableDiffusion の中で最も高性能なSDXL 0.9 をリリースしました。
詳細はこちらのブログをご参照ください。https://t.co/FMNtygCV4O pic.twitter.com/gOFUiPcf0M
— Stability AI 日本公式 (@StabilityAI_JP) June 22, 2023

Stability AI、SDXL 0.9 をリリース：画像生成AI技術の飛躍的進歩 — Stability AI Japan — Stability AI Japan
https://ja.stability.ai/blog/sdxl-09-stable-diffusion

Stability AIが2023年4月にベータ版を発表した「SDXL」は、モデルのパラメータ数が従来の9億から23億に増加し、生成できる画像のクオリティが大幅に向上しました。実際にSDXLのベータ版を使用して画像生成を行ってみたレビューは、以下で読むことが可能です。

従来のStable Diffusionより大幅に強化された画像生成AI「Stable Diffusion XL」のベータ版がテスト公開されたので使ってみた - GIGAZINE

Stability AIによると、SDXLのベータ版には7000人近くが参加するDiscordコミュニティから大きな反響が寄せられ、Discordユーザーが生成した画像は累計70万枚を超えているとのこと。

6月22日にStability AIは、SDXLのベータ版からさらに画像と構図のディテールが改善された最新バージョン「SDXL 0.9」を発表しました。SDXL 0.9ではパラメータ数がベータ版からさらに増加し、35億のパラメータを持つ単一モデルと58億のパラメータを持つ複数モデルからなっており、オープンソースモデルの中でも最大級のパラメータとなっています。2つのモデルを組み合わせて画像を生成することにより、画像に細かいディテールを追加できるとStability AIは説明しています。

Stability AIは公式ブログで、前モデルのSDXLベータ版と最新モデルのSDXL 0.9で同じプロンプトから画像を生成した結果を公開しています。以下は、「aesthetic aliens walk among us in Las Vegas, scratchy found film photograph(美的なエイリアンがラスベガスを歩く、掘り出し物のフィルム写真)」というプロンプトから、SDXLベータ版(左)とSDXL 0.9(右)で画像を生成した結果です。SDXL 0.9の画像はよりディテールがはっきりしている印象です。

以下は、「A wolf in Yosemite National Park, chilly nature documentary film photography(ヨセミテ国立公園のオオカミ、寒々とした自然ドキュメンタリー映画風の写真)」というプロンプトの生成結果。SDXLベータ版(左)と比較して、SDXL 0.9(右)はよりオオカミの顔立ちがはっきりとしています。

記事作成時点では、SDXL 0.9は2023年3月に買収したAI画像編集アプリ「ClipDrop」の公式サイトからアクセス可能となっているので、実際に使用してSDXL 0.9の性能を確かめてみました。

ClipDropの公式サイトにアクセスしたら、中央の入力欄にプロンプトを入力します。今回は「Horse show jumping in nature in good weather(天気の良い日に自然の中で行われている馬が飛ぶショー)」というプロンプトを入力し、「Generate」をクリック。

数十秒ほどで画像が生成されました。出力結果の画面には4枚の画像が表示されるスペースがありますが、サーバーの混雑具合のためか全部表示されないことの方が多いようです。詳しく見るには画像をクリックします。

よく見ると細かな部分に違和感はあるものの、かなりクオリティの高い画像が生成されました。

比較として、Stability AIのウェブサービスである「DreamStudio」で、従来版の「Stable Diffusion v2.1(バージョン2.1)」を使用して同じプロンプトから画像を生成させてみます。プロンプトを入力してモデルを選択し、「Dream」をクリック。

生成された画像はこんな感じ。

そのうちの1枚を拡大してみました。プロンプトには沿っているものの、SDXL 0.9で生成した画像と比較するとディテールはやや雑な印象です。

Stable Diffusion v2.1で生成した画像(左)とSDXL 0.9で生成した画像(右)を並べてみるとこんな感じ。

SDXL 0.9はWindows 10/11およびLinuxで動作し、16GBのRAMと最低8GBのVRAMを搭載したNvidia GeForce RTX 20グラフィックカードを備えた標準的なPCで実行できるとのこと。Stability AI APIも近日公開予定となっており、7月中旬にはバージョン1.0のオープンリリースが予定されているとのことです。

この記事のタイトルとURLをコピーする