画像生成AIでプロンプトのフォントサイズ・色・スタイル・脚注を反映して画像を調整する技術が登場

入力された文章(プロンプト)から画像を生成するAIの機能を「Text to Image」と呼びます。このプロンプトを、プレーンテキストではなくリッチテキストにして、フォントの大きさや色、スタイル、脚注を生成する画像に反映する技術「Expressive Text-to-Image Generation」を、メリーランド大学カレッジパークの研究者らが生み出しました。
Expressive Text-to-Image Generation with Rich Text
https://rich-text-to-image.github.io/
[2304.06720] Expressive Text-to-Image Generation with Rich Text
https://arxiv.org/abs/2304.06720
GitHub - songweige/rich-text-to-image: Rich-Text-to-Image Generation
https://github.com/SongweiGe/rich-text-to-image
公開されたデモンストレーション映像を見ると、どのような技術なのかがぱっとわかります。
フォントサイズ・色・スタイル・脚注で画像生成AIの生成画像を調整する技術のワークフローデモ - YouTube

プロンプトとして「A rustic cabin sits on the edge of a giant lake. Wildflowers dot the meadow around the cabin and lake.」(巨大な湖のほとりにひなびた小屋がある。小屋と湖の周りには野草が点在している)という文章を与えます。

すると、このような画像が生成されました。

「cabin」をオレンジ色に変更します。

すると、絵の中の小屋がオレンジ色を基調としたものになりました。

続いて、「Wildflowers」という単語のスタイルを「Watercolor」に変更。

野草が水彩画風に変化しました。

「lake」という単語に対しては「crystal-clear, blueish lake, glistening in the sunlight」(澄み切った、青みがかった湖、日光できらめく)と脚注を追加。

湖の描写が変化しました。

これにより「髪の毛だけ好みの色に調整したい」といったことが可能に。

他の手法との比較も公開されています。これは教会の色を指定したもので、「Pink」や「Olive Yellow」といった色名での指定は他のプロンプトもうまく適応していますが、「(211,22,52)」というRGB指定でも対応できているところは特徴的。

パンツの色の変更だとこんな感じになるようです。

ピザを生成するプロンプトで、「mushrooms(マッシュルーム)」や「pepperonis(ペパロニ)」という具材部分のフォントを大きくすることで、生成したピザ画像の具材を増やすこともできます。

・関連記事
画像生成AI「Stable Diffusion」開発元が自然な文章から画像を生成できる「DeepFloyd IF」を発表 - GIGAZINE
画像生成AI「Stable Diffusion」でたった1枚の画像から「特定の画像っぽい○○」をわずか数十秒で生成する方法が発表される - GIGAZINE
突飛なテキストからも高精度な画像を自動生成できるAIシステム「Imagen」 - GIGAZINE
・関連コンテンツ
in ウェブアプリ, 動画, Posted by logc_nt
You can read the machine translated English article A technology has been introduced that us….