2024年02月02日 23時00分ソフトウェア

画像生成AI・Stable Diffusionのエンコーダーに見つかった致命的な欠陥とは？

画像生成AIのStable Diffusionは「潜在拡散モデル」と呼ばれるAIで、テキストを入力するだけで高精度な画像を生成することが可能です。このStable Diffusionに使われている「VAE」に致命的な欠陥があるという報告が、オンライン掲示板サイトのRedditに投稿されています。

The VAE used for Stable Diffusion 1.x/2.x and other models (KL-F8) has a critical flaw, probably due to bad training, that is holding back all models that use it (almost certainly including DALL-E 3). : StableDiffusion
https://old.reddit.com/r/StableDiffusion/comments/1ag5h5s/the_vae_used_for_stable_diffusion_1x2x_and_other/

Stable Diffusionには、ピクセル空間の画像を潜在空間にエンコード、あるいは潜在空間からデコードする「変分オートエンコーダー(VAE)」という技術が使われています。潜在空間とは学習した画像の特徴(データ)がまとまった空間で、VAEは学習したデータの特徴をとらえて潜在変数に変換したり、潜在変数からデータを生成したりすることができます。

Stable Diffusionのバージョン1.xと2.xには、「KL-F8」というVAEがデフォルトで採用されています。一方、Stable Diffusionからさらに性能を向上させたというStable Diffusion XLには、開発元のStabilityAIが独自に改良したエンコーダーが使われています。今回drhead氏が問題にしたのは、KL-F8です。

例えば、以下の画像を潜在空間にエンコードします。

Stable Diffusion XLのVAEで潜在空間にエンコードすると、こんな感じ。

同じ画像をKL-F8でエンコードしたものが以下。よく見ると、画像の中に謎の黒点が生まれています。

元の画像(左)をKL-F8で潜在空間にエンコードしてからデコードした画像(右)を見比べると、ちょうど黒点が生じた部分がぼやけてしまい、画像の品質が落ちていることがわかります。

この問題をRedditに投稿したユーザーのdrhead氏は、Stable Diffusionに搭載されているKL-F8には、「画像を潜在空間にエンコードする際に、画像の特定箇所に『この画像は全体的に緑色だ』というような全体的な情報を置いてしまう」という欠点があると指摘しています。

本来、潜在空間において画像の上の任意の点は近くにある点と関連して構築されています。しかし、全体的な情報がごく一部に格納されてしまうと、画像生成でノイズ除去を行う際に影響が出てしまい、計算リソースを浪費することになるとのこと。上記の潜在空間にエンコードした画像に生じていた黒点が、この全体的な情報を格納したポイントなのではないかとdrhead氏は推測しています。

KL-F8の問題は、Stable Diffusionのバージョン1.xと2.xのほか、動画生成AIのStable Video Diffusion、OpenAIのDALL-E 3、そしてStable Diffusionをベースにしている他モデルが影響を受けるとのこと。また、VAEが改良されているStable Diffusion XLではこの問題が見られないそうです。

KL-F8を使っても画像生成はほぼ問題なく機能します。ただし、drhead氏は画像生計算コストが大きくなってしまう点が問題であると述べ、KL-F8を使用して新しいモデルを構築することはやめるべきだと論じました。

なお、drhead氏は、Stable Diffusionに使われているKL-F8は、Stable Diffusionを開発したミュンヘン大学の研究グループ・CompVisのミスであると主張しています。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2024年02月02日 23時00分00秒 in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article What is the fatal flaw found in the imag….