ネットサービス

AIを使って複数枚の画像から抽出した異なる要素を組み合わせて1枚の画像を生成する「TokenVerse」


Google DeepMindの研究チームが、画像の中から特定の視覚的要素や属性を抽出し、AIを使って複数枚の画像から抽出した要素を組み合わせ、自然な1枚の画像を生成する手法「TokenVerse」を発表しました。研究チームはウェブサイト上で、TokenVerseを使ってどのような画像が生成できるのかを解説しています。

[2501.12224] TokenVerse: Versatile Multi-concept Personalization in Token Modulation Space
https://arxiv.org/abs/2501.12224

TokenVerse
https://token-verse.github.io/

TokenVerseは、拡散モデルとTranformerを組み合わせたDiffusion Transformer(DiT)をベースにテキストから画像を生成するモデルを利用し、入力したテキストに従って画像からオブジェクト・アクセサリー・ポーズ・ライティングなどの要素を抽出します。そして、各画像から抽出した要素を組み合わせて、新たな画像を生成することができます。

研究チームは、実際にTokenVerseを使って画像を生成するプロセスについて解説しています。たとえば以下の3枚の画像にはキャプションが付いており、それぞれ「dog(イヌ)」「glasses(メガネ)」「pattern(模様)」といった要素を強調しています。


これらの画像と「a dog wearing a shirt with a pattern and glasses(イヌが模様のついたシャツとメガネをかけている)」というテキストを入力すると、「イヌ」「メガネ」「模様」の各要素を画像から抽出し、組み合わせて1枚の画像が生成されました。


抽出する要素に指定できるのは被写体や小物だけでなく、光の当たり方なども抽出可能です。


画面を覆う霧のような特殊効果も抽出できる模様。


ポーズのみを抽出し、別の画像から抽出した被写体に指定したポーズをさせることもできます。


物体表面のテクスチャーのみを抽出することも可能です。


TokenVerseについて解説するウェブサイトには、要素を抽出する画像を入れ替えて、実際に生成される画像が変化する様子を確認できるデモも用意されていました。

この記事のタイトルとURLをコピーする

・関連記事
Googleが画像をリミックスして新たな画像を生成できる画像生成AIアプリ「Whisk」を発表 - GIGAZINE

マルチモーダル画像生成AI「OmniGen」登場、1つのモデルで「ポーズ指定生成」「画像内の物体置換」「被写体指定生成」などが可能 - GIGAZINE

テキストや画像から高精度な3Dアセットを作り出すAIシステム「Hunyuan3D 2.0」をTencentがオープンソースで公開 - GIGAZINE

DeepSeekが画像生成モデル「Janus Pro」をMITライセンスで公開、DALL-E 3を超える性能と自負 - GIGAZINE

Stable Diffusionなどの画像生成AIに用いられる拡散モデルは「進化的アルゴリズム」だという主張 - GIGAZINE

DeepSeekはなぜこんな大騒ぎになっていて一体何がそんなにスゴいのか - GIGAZINE

DeepSeekはどのようにしてOpenAIの3%のコストでo1を超えたのか? - GIGAZINE

話題の中国AI企業「DeepSeek」の創設者兼CEOであるLiang Wenfengへのインタビューからイノベーションの秘訣を探る - GIGAZINE

in ソフトウェア,   ネットサービス, Posted by log1h_ik

You can read the machine translated English article 'TokenVerse' uses AI to combine differen….