ソフトウェア

Stable Diffusion 3 Mediumがオープンリリースされる、比較的小型で個人利用に最適なモデルに


画像生成AI「Stable Diffusion」を開発するStability AIが、「Stable Diffusion 3 Medium」のモデルを公開したと発表しました。

最も洗練された画像生成モデル、Stable Diffusion 3 Medium のオープンリリースを発表 — Stability AI Japan
https://ja.stability.ai/blog/stable-diffusion-3-medium


stabilityai/stable-diffusion-3-medium · Hugging Face
https://huggingface.co/stabilityai/stable-diffusion-3-medium

Stable Diffusion 3は2024年2月に発表されたモデルで、指定した文字を画像内に違和感なく描写したり、複数の被写体を高精細に描写したりといった特徴で話題となりました。

高画質画像生成AI「Stable Diffusion 3」発表、画像生成AIが苦手とする「指定した文字の描写」「複数の被写体の描写」などを高精度に実現可能 - GIGAZINE


Stable Diffusion 3 Mediumはパラメータ数20億の比較的小さいサイズのモデルで、個人向けシステムや企業向けGPUで動作させるのに最適だとのこと。Stability AIはStable Diffusion 3 Mediumの特徴として以下を挙げています。

・全体的な品質とフォトリアリズム
ディテール、カラー、ライティングに優れ、フォトリアリスティックな出力と、柔軟なスタイルでの高品質な出力を可能にします。16チャンネルVAEなどの工夫により、手や顔のリアルさなど、他モデルにありがちな落とし穴にも対応しました。
・プロンプトの理解
空間的推論、構成要素、アクション、スタイルを含む、長く複雑なプロンプトを理解します。3つのテキストエンコーダーをすべて、または組み合わせて使用することで、パフォーマンスと効率をトレードオフすることができます。
・テキスト生成
Diffusion Transformer architectureにより、スペル、カーニング、文字組み、スペーシングのミスを低減し、これまでにないテキスト品質を実現します。
・リソース効率
低いVRAMフットプリントにより、標準的なコンシューマー向けGPUでパフォーマンスを低下させることなく実行することができます。
・ファインチューニング
小さなデータセットから微妙なディテールを理解することができ、カスタマイズに最適です。


また、Stability AIはNVIDIAやAMDとのコラボレーションを発表。NVIDIA RTX GPUとTensorRTを活用することで、Stable Diffusion 3 Mediumを含むすべてのStable Diffusion モデルのパフォーマンスが強化されたとのこと。特にTensorRTに最適化されたバージョンは、従来と比較してパフォーマンスが50%向上すると主張しています。

また、AMD製のAPUやコンシューマー向けGPU、MI-300XエンタープライズGPUなどさまざまなAMDデバイス向けに、Stable Diffusion 3 Mediumの推論を最適化しているとStability AIは発表しました。


Stable Diffusion 3 Mediumのモデルデータは、オンラインAIプラットフォームのHugging Faceで公開されており、記事作成時点でオープンな非商用ライセンスと低コストなクリエイターライセンスの下で利用可能になっています。

また、Stable Diffusion 3 Mediumのオープンリリースと同時に、Stable Diffusion 3 MediumのAPIも利用可能となっており、チャットボットの「Stable Assistant」や、Discord上で動作する「Stable Artisan」で利用できるとのこと。どちらも利用するには月額有料のサブスクリプションプランに登録する必要がありますが、3日間の無料トライアルが可能となっています。

この記事のタイトルとURLをコピーする

・関連記事
無料で使える音楽生成AI「Stable Audio Open」をStable Diffusion開発元が公開、テキストから最長47秒のサウンドトラックを生成可能 - GIGAZINE

文字を正しく出力できる画像生成AI「Stable Diffusion 3」がAPI経由で利用可能に - GIGAZINE

文章で指示するだけで音楽を作れる音楽生成AI「Stable Audio 2.0」が登場したので使ってみた - GIGAZINE

Stability AIが画像から3Dモデルを生成できるAI「TripoSR」を発表、簡単に使えるデモも公開されてたので試してみた - GIGAZINE

グラボを買い替えずとも画像生成AIの実行速度を高速化できる「Stable Diffusion WebUI Forge」を実際にインストールして生成速度を比較してみた - GIGAZINE

in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article here.