ソフトウェア

画像生成AI「Stable Diffusion」開発元が自然な文章から画像を生成できる「DeepFloyd IF」を発表


文章(プロンプト)から画像を生成するAI「Stable Diffusion」を開発したStability AIが、新しい画像生成AI「DeepFloyd IF」をリリースしました。画像内に正しい文字を反映させる処理などの性能が向上しています。

DeepFloyd IF — DeepFloyd
https://deepfloyd.ai/deepfloyd-if

Stability AIが大規模言語モデルを取り入れた高性能なテキストから画像への変換モデル「DeepFloyd IF」を発表
https://ja.stability.ai/blog/deepfloyd-if-text-to-image-model

DeepFloyd IFのデモページが公開されていたので実際に試してみました。まずはプロンプトを入力し、「Generate」をクリックします。今回プロンプトとして「腹部に『おやすみ』という文字が書かれた服を着たコアラ」と日本語で入力し、Negative Prompt(適用してほしくないプロンプト)は空白にしました。


すると、特に関係のなさそうな画像が生成されました。どんなプロンプトでも日本語で入力するとこんな感じの画像がでてきてしまうので、記事作成時点では日本語で入力するのはやめておいた方がよさげ。


気を取り直して英語でプロンプトを入力してみた結果がこんな感じ。画像の候補が4つ表示されますが、これらはすべて低解像度で出力されているため、次にアップスケールの処理を行う必要があります。


好きな画像を1枚選んで「Upscale」をクリック。


すると、こんな感じでアップスケールされた画像が表示されます。


DeepFloyd IFの生成フローチャートを端的に表したのが以下の画像。入力されたプロンプトはfrozen T5-XXL言語モデルを通して質的テキスト表現に変換され、さらにIF-I 400M、IF-I 900M、IF-I 4.3Bという3つのベースモデルにより64×64の画像に変換されます。


第2段階では、IF-II 450MまたはIF-II 1.2Bでトレーニングした「Efficient U-Net」をベースモデルの出力に適用します。そのうちの1つは、64x64の画像を256x256の画像にアップスケーリングするものです。第3段階では、第2段階で適用されなかった方のモデルが適用され、1024×1024の鮮明な画像が生成されます。

DeepFloyd IFはLAION-Aデータセットで学習されました。LAION-Aは、LAION-5Bデータセットから類似ハッシュに基づく重複排除、クリーニング、元のデータセットに対するその他修正を経て得られたものであり、DeepFloydのカスタムフィルターを使用して、透かし、NSFW、その他の不適切なコンテンツが除去されているとのこと。


DeepFloyd AIは、ほかのモデルが苦手としている「文字の反映」を得意としており、画像内に文字を正しく反映させることが可能。楽曲の歌詞をDeepFloyd AIで生成して画像内に反映し、動画化したものは以下から確認できます。複数のシーンにおいて、歌詞通りの文字が画像内に反映されていることが分かります。

Lyric video, but it's AI Generated (The Smiths - There Is a Light That Never Goes Out) - YouTube


同じプロンプトを元にStable Diffusion 2.1とDeepFloyd AIで画像を生成し、並べて比較したものが以下の画像です。


今度はImagenとの比較画像。


Muse


eDiff-I


Parti


DALL・E2との比較画像です。

この記事のタイトルとURLをコピーする

・関連記事
画像生成AI「Stable Diffusion」開発元がチャットAI「StableVicuna」をリリース - GIGAZINE

画像をキレイに拡大できるイメージアップスケーリングAPIを画像生成AI「Stable Diffusion」の開発元Stability AIが公開 - GIGAZINE

ChatGPTの対抗馬としてオープンソースの対話型AIチャット「HuggingChat」をHuggingFaceがリリース - GIGAZINE

画像生成AI「Stable Diffusion」が使う無料のデータセット「LAION」の構築を率いているのは1人の高校教師だった - GIGAZINE

in ソフトウェア,   アート, Posted by log1p_kr

You can read the machine translated English article here.