2022年11月22日

テキストから高解像度の3Dモデルを生成するAI「Magic3D」をNVIDIAが発表、テキストの微調整やスタイルの模倣も可能



大手半導体メーカーでありAI開発にも力を入れているNVIDIAが、入力したテキストを基に3Dモデルを生成するAI「Magic3D」を発表しました。Magic3Dが生成する3Dモデルは、Google Researchが発表した「DreamFusion」と比較して8倍の解像度を誇り、生成にかかる時間も半分ほどだとのことです。



[2211.10440] Magic3D: High-Resolution Text-to-3D Content Creation

https://doi.org/10.48550/arXiv.2211.10440



Magic3D: High-Resolution Text-to-3D Content Creation

https://deepimagination.cc/Magic3D/



3D for everyone? Nvidia’s Magic3D can generate 3D models from text | Ars Technica

https://arstechnica.com/information-technology/2022/11/nvidias-magic3d-creates-3d-models-from-written-descriptions-thanks-to-ai/



Nvidia's Magic3D turns text into high-resolution 3D objects

https://the-decoder.com/nvidias-magic3d-turns-text-into-high-resolution-3d-objects/



Magic3Dはさまざまな画像生成AIと同様に、入力したテキスト(プロンプト)に基づいて高解像度の3Dモデルを生成するAIです。「A blue poison-dart frog sitting on a water lily.(睡蓮の上に座る青いヤドクガエル)」というプロンプトを入力すると、このように毒々しい色合いの青いカエルが葉の上に座っている3Dモデルが生成されます。





色をなくした3Dメッシュも示されました。





「A silver platter piled high with fruits.(銀の大皿に山盛りのフルーツ)」だとこんな感じ。





他にも、さまざまなテキストに基づいた3Dモデルを生成できるようです。





それぞれの3Dメッシュはこんな感じ。





また、最初に3Dモデルを生成したプロンプトの一部を変更することで、同じ構図でさまざまなバリエーションを付けることも可能です。以下の3Dモデルは、左から順に「山盛りのパンケーキの上に座った子ウサギ」「山盛りのブロッコリーの上に座ったメタルウサギ」「山盛りのチョコレートクッキーの上に座ったスフィンクス」となっています。





参考画像を入力することで、画像のスタイルを模倣して3Dモデルを生成することも可能だとのこと。





Magic3Dは3Dモデルの生成に2段階のプロセスを採用しています。まずは入力されたテキストを基に、高精度な画像生成AIである「eDifi」を使用して2D画像を生成します。





続いて、NVIDIAのInstant-NGPを使って2D画像から低解像度の3Dモデルを生成します。





次の段階では、粗い3Dメッシュから高解像度の3Dモデルを合成するDMTet AIを使用して、低解像度の3Dモデルから高解像度の3Dモデルを抽出するそうです。Magic3Dで使用するDMTetは、この目的のために最適化されているとのこと。





この手法で、Magic3Dは高解像度の3Dモデルを生成しているとNVIDIAは解説しています。





NVIDIAはGoogle Researchが発表した3Dモデル生成AIのDreamFusionとMagic3Dの比較も行っています。以下は、「A plate piled high with chocolate chip cookies.(チョコレートチップクッキーが山盛りの皿)」というテキストを基に、DreamFusionが生成した3Dモデル(左)とMagic3Dが生成した3Dモデル(右)を並べたもの。





左が「Michelangelo style statue of an astronaut.(ミケランジェロ風の宇宙飛行士像)」、右が「A ceramic lion.(セラミックのライオン)」というテキストで、DreamFusionとMagic3Dが生成した3Dモデルを比較したもの。確かにMagic3Dの方が高解像度の3Dモデルを生成できることがうかがえます。NVIDIAによると、Magic3DはDreamFusionよりも8倍高解像度の3Dモデルを生成可能であり、生成にかかる時間はDreamFusionが平均1時間30分なのに対し、Magic3Dは平均40分ほどだそうです。





NVIDIAの研究チームは、特別なトレーニングを必要とせず誰もが3Dモデルを作成できるようになることを望んでいるとのこと。Magic3Dがより洗練されれば、ゲームやVRコンテンツの開発がよりスピードアップし、最終的には映画やテレビの特殊効果に応用される可能性があります。論文の中で研究チームは、「Magic3Dによって3Dモデルの合成を大衆化し、3Dコンテンツ制作におけるすべての人の創造性を開放することができると期待しています」と述べました。