ソフトウェア

最大4096×4096の解像度の画像を数秒以内に自動生成できるAIモデル「Sana」をNVIDIAなどの研究チームがリリース


NVIDIAやマサチューセッツ工科大学(MIT)、精華大学の研究チームが、最大4096×4096の解像度の画像を数秒以内に生成できる画像生成AI「Sana」を発表しました。

[2410.10629] SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers
https://arxiv.org/abs/2410.10629

Sana
https://nvlabs.github.io/Sana/


以下は実際にSanaで作成した画像の一例です。「astronaut in a jungle, cold color palette, muted colors, detailed,8k(ジャングルの中の宇宙飛行士、寒色系、ミュートカラー、細かく、8Kで)」というプロンプトだと、こんな感じの画像を生成可能。


「a cyberpunk cat with a neon sign that says "SANA"(『SANA』と書かれたネオンサインとサイバーパンクな猫)」というプロンプトで生成した画像が以下。


「portrait photo of a girl, photograph, highly detailed face, depth of field(少女のポートレート写真、写実的に、非常に詳細な顔、被写界深度を加えて)」というプロンプトを入力すると、リアルな人物の画像が生成されました。


Sanaの開発チームによると、画像を8倍までしか圧縮できない従来のオートエンコーダーと異なり、Sanaでは画像を最大32倍圧縮可能なオートエンコーダーのトレーニングを実施することで、潜在的なトークンの数を効果的に減らしつつ、効率的なトレーニングや4K解像度という超高解像度画像の生成を実現しているとのこと。

また、デコーダー専用に言語モデルのGemmaをテキストエンコーダーとして利用することで、プロンプトの理解と推論の性能を強化しています。従来のT5と異なり、Gemmaは優れたテキスト理解力があるため、トレーニングの不安定性に対処しつつ、画像とテキストのアライメントを改善することができるそうです。さらに、サンプリングステップを削減するため「Flow-DPM-Solver」と呼ばれる仕組みを導入しており、この結果サンプリングステップの数を「Flow-Euler-Solver」と比べて28回~50回から14回~20回へと減らし、効率的なキャプションのラベリングと選択を実現しています。


こうした取り組みの結果、Sanaは「Flux」をはじめとする最新の高性能画像生成AIと同様の競争力を有しながらも、100倍以上高速な画像生成が可能です。開発チームによると、パラメーターサイズが6億の「SANA-0.6B」はメモリ容量が16GBのGPU搭載ノートPCでも展開可能で、1024×1024の解像度の画像を生成するのに1秒もかからないとされています。以下はSanaの画像生成にかかる時間を比較したグラフで、パラメーターサイズが16億の「SANA-1.6B」は1024×1024の画像を1.2秒で生成可能。4096×4096の画像は15.9秒で生成することができます。さらに、SANA-0.6Bは1024×1024の画像を0.9秒で生成できるほか、4096×4096の画像をわずか9.6秒で生成可能です。


Sanaと各種画像生成AIの性能を比較した表が以下。Sanaの各モデルがスループットの面でほかの画像生成AIよりも高い性能を残していることが報告されています。


なお、記事作成時点でSanaのソースコードは「近日公開予定」とのことです。

この記事のタイトルとURLをコピーする

・関連記事
Stable Diffusionのオリジナル開発陣がAI企業「Black Forest Labs」を立ち上げ独自の画像生成AIモデル「Flux」をリリース - GIGAZINE

Stable Diffusionのオリジナル開発陣によるAI企業「Black Forest Labs」が画像生成AI「FLUX1.1 [pro]」とアプリケーション統合用の「BFL API」をリリース - GIGAZINE

AppleのAI研究チームがAIモデル「Depth Pro」をリリース、単一の画像を使用して標準GPUで225万ピクセルの3D深度マップを0.3秒で生成できる - GIGAZINE

Googleがロボットアームに「靴ひもを結ぶ」「別のロボットを修理」などの難しいタスクを学習させる手法を発表 - GIGAZINE

Stable Diffusionにも使われるデータセット「LAION-5B」に児童性的虐待コンテンツが見つかり開発元がリンクを削除した「Re-LAION-5B」をリリース - GIGAZINE

画像生成AI「Midjourney」のウェブアプリ版が正式リリース、Discordアカウント不要で画像生成可能に - GIGAZINE

in ソフトウェア, Posted by log1r_ut

You can read the machine translated English article here.