ソフトウェア

AIによる画像生成を30倍高速化する手法をマサチューセッツ工科大学が開発


DALL-E 3やStable Diffusionといった人気の画像生成AIの拡散モデルを簡素化し、生成される画像の品質を維持しつつ生成スピードを最大で30倍加速させる技術を、アメリカ・マサチューセッツ工科大学(MIT)の研究チームが公開しました。

[2311.18828] One-step Diffusion with Distribution Matching Distillation
https://arxiv.org/abs/2311.18828

AI generates high-quality images 30 times faster in a single step | MIT News | Massachusetts Institute of Technology
https://news.mit.edu/2024/ai-generates-high-quality-images-30-times-faster-single-step-0321


MIT scientists have just figured out how to make the most popular AI image generators 30 times faster | Live Science
https://www.livescience.com/technology/artificial-intelligence/mit-has-just-worked-out-how-to-make-the-most-popular-ai-image-generators-dall-e-3-stable-diffusion-30-times-faster


画像生成AIの多くで使われている拡散モデルは、何の画像なのかを説明するキャプションやメタデータをつけられた画像をトレーニングデータとして使用することで、テキストプロンプトから正確に画像を生成できるようにトレーニングされています。

この過程で、拡散モデルはまずランダムな画像をノイズに変換してから、「逆拡散」と呼ばれるノイズ除去の過程を最大100ステップ行うことで、鮮明な画像を生成できるようになるとのこと。


今回MITの研究チームが発表した「分布マッチング蒸留(DMD)」という手法では、この「逆拡散」のステップを1ステップまで減らすことで、画像生成にかかる時間を大きく短縮することに成功しました。

Stable Diffusion v1.5を使用したあるテストでは、2590ミリ秒かかっていた画像生成時間が、約30分の1の90ミリ秒に短縮されました。


MITのTianwei Yin氏は「私たちの研究は、敵対的生成ネットワーク(GAN)の原理と拡散モデルの原理を融合させ、視覚コンテンツ生成を1つのステップで実現するもので、これは現行の拡散モデルが100ステップもの反復的な改良を必要とするのとは対照的です。これは、スピードと品質に優れた新しい生成モデリング手法となる可能性を秘めています」と話しました。

DMDには、画像を生成するのに必要な反復回数を減らす上で重要な2つの要素があります。1つ目は「回帰損失」と呼ばれるもので、学習の最中に類似性に基づいて画像を整理することでAIを高速化します。2つ目は「分布マッチング損失」で、特定の画像が生成される確率を現実世界での確率に対応させるというものです。これらの技術を組み合わせるとこで、新しいAIモデルによって生成された画像に奇妙な部分が現れる可能性が最小限に抑えられるとのこと。


この新しいアプローチは、画像生成に必要な演算力を劇的に削減するため、高速かつ効率的な生成が求められるAI業界に大きな利益をもたらし、より迅速なコンテンツ生成につながると期待されています。

MITのフレド・デュランド氏は、「拡散モデルが誕生してからというもの、反復回数を減らす方法が聖杯のように探し求められていました。それがついに1回のステップでの画像生成が可能になり、演算コストが劇的に削減され、生成の過程が加速されることに大変興奮しています」と話しました。

この記事のタイトルとURLをコピーする

・関連記事
グラボを買い替えずとも画像生成AIの実行速度を高速化できる「Stable Diffusion WebUI Forge」を実際にインストールして生成速度を比較してみた - GIGAZINE

高速かつ高品質&家庭用グラボでも簡単に追加学習可能な画像生成AIモデル「Stable Cascade」をStability AIが発表 - GIGAZINE

画像生成AI「Stable Diffusion」を最速で実行できるGPUはどれなのか? - GIGAZINE

Stability AIが画像から3Dモデルを生成できるAI「TripoSR」を発表、簡単に使えるデモも公開されてたので試してみた - GIGAZINE

GPU・CUDAを活用して数値計算やAIのトレーニングを高速化するのに必要な基礎知識のコード例付きまとめ - GIGAZINE

in ソフトウェア, Posted by log1l_ks

You can read the machine translated English article here.