レビュー

画像生成AI「Stable Diffusion」の高性能モデル「SDXL 0.9」をStability AIが発表、画像と構図のディテールが大幅に改善


画像生成AI「Stable Diffusion」を開発したAI研究企業のStability AIは、2023年4月に従来の画像生成AIを大幅に強化した「Stable Diffusion XL(SDXL)」のベータ版をリリースしました。そして現地時間の6月22日、SDXLベータ版から画像と構図のディテールが大幅に改善された新モデル「SDXL 0.9」がリリースされました。


Stability AI、SDXL 0.9 をリリース:画像生成AI技術の飛躍的進歩 — Stability AI Japan — Stability AI Japan
https://ja.stability.ai/blog/sdxl-09-stable-diffusion

Stability AIが2023年4月にベータ版を発表した「SDXL」は、モデルのパラメータ数が従来の9億から23億に増加し、生成できる画像のクオリティが大幅に向上しました。実際にSDXLのベータ版を使用して画像生成を行ってみたレビューは、以下で読むことが可能です。

従来のStable Diffusionより大幅に強化された画像生成AI「Stable Diffusion XL」のベータ版がテスト公開されたので使ってみた - GIGAZINE


Stability AIによると、SDXLのベータ版には7000人近くが参加するDiscordコミュニティから大きな反響が寄せられ、Discordユーザーが生成した画像は累計70万枚を超えているとのこと。

6月22日にStability AIは、SDXLのベータ版からさらに画像と構図のディテールが改善された最新バージョン「SDXL 0.9」を発表しました。SDXL 0.9ではパラメータ数がベータ版からさらに増加し、35億のパラメータを持つ単一モデルと58億のパラメータを持つ複数モデルからなっており、オープンソースモデルの中でも最大級のパラメータとなっています。2つのモデルを組み合わせて画像を生成することにより、画像に細かいディテールを追加できるとStability AIは説明しています。

Stability AIは公式ブログで、前モデルのSDXLベータ版と最新モデルのSDXL 0.9で同じプロンプトから画像を生成した結果を公開しています。以下は、「aesthetic aliens walk among us in Las Vegas, scratchy found film photograph(美的なエイリアンがラスベガスを歩く、掘り出し物のフィルム写真)」というプロンプトから、SDXLベータ版(左)とSDXL 0.9(右)で画像を生成した結果です。SDXL 0.9の画像はよりディテールがはっきりしている印象です。


以下は、「A wolf in Yosemite National Park, chilly nature documentary film photography(ヨセミテ国立公園のオオカミ、寒々とした自然ドキュメンタリー映画風の写真)」というプロンプトの生成結果。SDXLベータ版(左)と比較して、SDXL 0.9(右)はよりオオカミの顔立ちがはっきりとしています。


記事作成時点では、SDXL 0.9は2023年3月に買収したAI画像編集アプリ「ClipDrop」の公式サイトからアクセス可能となっているので、実際に使用してSDXL 0.9の性能を確かめてみました。


ClipDropの公式サイトにアクセスしたら、中央の入力欄にプロンプトを入力します。今回は「Horse show jumping in nature in good weather(天気の良い日に自然の中で行われている馬が飛ぶショー)」というプロンプトを入力し、「Generate」をクリック。


数十秒ほどで画像が生成されました。出力結果の画面には4枚の画像が表示されるスペースがありますが、サーバーの混雑具合のためか全部表示されないことの方が多いようです。詳しく見るには画像をクリックします。


よく見ると細かな部分に違和感はあるものの、かなりクオリティの高い画像が生成されました。


比較として、Stability AIのウェブサービスである「DreamStudio」で、従来版の「Stable Diffusion v2.1(バージョン2.1)」を使用して同じプロンプトから画像を生成させてみます。プロンプトを入力してモデルを選択し、「Dream」をクリック。


生成された画像はこんな感じ。


そのうちの1枚を拡大してみました。プロンプトには沿っているものの、SDXL 0.9で生成した画像と比較するとディテールはやや雑な印象です。


Stable Diffusion v2.1で生成した画像(左)とSDXL 0.9で生成した画像(右)を並べてみるとこんな感じ。


SDXL 0.9はWindows 10/11およびLinuxで動作し、16GBのRAMと最低8GBのVRAMを搭載したNvidia GeForce RTX 20グラフィックカードを備えた標準的なPCで実行できるとのこと。Stability AI APIも近日公開予定となっており、7月中旬にはバージョン1.0のオープンリリースが予定されているとのことです。

この記事のタイトルとURLをコピーする

・関連記事
従来のStable Diffusionより大幅に強化された画像生成AI「Stable Diffusion XL」のベータ版がテスト公開されたので使ってみた - GIGAZINE

画像生成AI「Stable Diffusion」開発元がAI画像編集アプリ「ClipDrop」の開発元を買収しAIアプリ開発体制を強化 - GIGAZINE

画像生成AI「Stable Diffusion」でスマホでもわずか1枚2秒という爆速で画像生成ができる「SnapFusion」 - GIGAZINE

画像生成AIのStable Diffusionをインストール不要でブラウザから動作可能な「Web Stable Difusion」が登場 - GIGAZINE

画像生成AI「Stable Diffusion」「Adobe Firefly」「Midjourney」の特徴が一発で分かる「同じテキスト」から生成した画像たち - GIGAZINE

画像生成AI「Stable Diffusion」に描かせたい内容を文章で伝えるだけで一発で何通りものプロンプト・呪文を簡単に自動作成できる「MagicPrompt」Stable Diffusion版 - GIGAZINE

ブラウザ上で描いたイラストと同じ構図で画像生成AIに絵を描いてもらえる「Scribble Diffusion」が登場 - GIGAZINE

画像生成AIのStable DiffusionやMidjourneyで生成可能な画像とプロンプトを写真やイラストから検索できる「unprompt.ai」 - GIGAZINE

in レビュー,   ソフトウェア,   ネットサービス, Posted by log1h_ik

You can read the machine translated English article here.