ソフトウェア

テキストから高解像度の3Dモデルを生成するAI「Magic3D」をNVIDIAが発表、テキストの微調整やスタイルの模倣も可能


大手半導体メーカーでありAI開発にも力を入れているNVIDIAが、入力したテキストを基に3Dモデルを生成するAI「Magic3D」を発表しました。Magic3Dが生成する3Dモデルは、Google Researchが発表した「DreamFusion」と比較して8倍の解像度を誇り、生成にかかる時間も半分ほどだとのことです。

[2211.10440] Magic3D: High-Resolution Text-to-3D Content Creation
https://doi.org/10.48550/arXiv.2211.10440

Magic3D: High-Resolution Text-to-3D Content Creation
https://deepimagination.cc/Magic3D/

3D for everyone? Nvidia’s Magic3D can generate 3D models from text | Ars Technica
https://arstechnica.com/information-technology/2022/11/nvidias-magic3d-creates-3d-models-from-written-descriptions-thanks-to-ai/

Nvidia's Magic3D turns text into high-resolution 3D objects
https://the-decoder.com/nvidias-magic3d-turns-text-into-high-resolution-3d-objects/

Magic3Dはさまざまな画像生成AIと同様に、入力したテキスト(プロンプト)に基づいて高解像度の3Dモデルを生成するAIです。「A blue poison-dart frog sitting on a water lily.(睡蓮の上に座る青いヤドクガエル)」というプロンプトを入力すると、このように毒々しい色合いの青いカエルが葉の上に座っている3Dモデルが生成されます。


色をなくした3Dメッシュも示されました。


「A silver platter piled high with fruits.(銀の大皿に山盛りのフルーツ)」だとこんな感じ。


他にも、さまざまなテキストに基づいた3Dモデルを生成できるようです。


それぞれの3Dメッシュはこんな感じ。


また、最初に3Dモデルを生成したプロンプトの一部を変更することで、同じ構図でさまざまなバリエーションを付けることも可能です。以下の3Dモデルは、左から順に「山盛りのパンケーキの上に座った子ウサギ」「山盛りのブロッコリーの上に座ったメタルウサギ」「山盛りのチョコレートクッキーの上に座ったスフィンクス」となっています。


参考画像を入力することで、画像のスタイルを模倣して3Dモデルを生成することも可能だとのこと。


Magic3Dは3Dモデルの生成に2段階のプロセスを採用しています。まずは入力されたテキストを基に、高精度な画像生成AIである「eDifi」を使用して2D画像を生成します。


続いて、NVIDIAのInstant-NGPを使って2D画像から低解像度の3Dモデルを生成します。


次の段階では、粗い3Dメッシュから高解像度の3Dモデルを合成するDMTet AIを使用して、低解像度の3Dモデルから高解像度の3Dモデルを抽出するそうです。Magic3Dで使用するDMTetは、この目的のために最適化されているとのこと。


この手法で、Magic3Dは高解像度の3Dモデルを生成しているとNVIDIAは解説しています。


NVIDIAはGoogle Researchが発表した3Dモデル生成AIのDreamFusionとMagic3Dの比較も行っています。以下は、「A plate piled high with chocolate chip cookies.(チョコレートチップクッキーが山盛りの皿)」というテキストを基に、DreamFusionが生成した3Dモデル(左)とMagic3Dが生成した3Dモデル(右)を並べたもの。


左が「Michelangelo style statue of an astronaut.(ミケランジェロ風の宇宙飛行士像)」、右が「A ceramic lion.(セラミックのライオン)」というテキストで、DreamFusionとMagic3Dが生成した3Dモデルを比較したもの。確かにMagic3Dの方が高解像度の3Dモデルを生成できることがうかがえます。NVIDIAによると、Magic3DはDreamFusionよりも8倍高解像度の3Dモデルを生成可能であり、生成にかかる時間はDreamFusionが平均1時間30分なのに対し、Magic3Dは平均40分ほどだそうです。


NVIDIAの研究チームは、特別なトレーニングを必要とせず誰もが3Dモデルを作成できるようになることを望んでいるとのこと。Magic3Dがより洗練されれば、ゲームやVRコンテンツの開発がよりスピードアップし、最終的には映画やテレビの特殊効果に応用される可能性があります。論文の中で研究チームは、「Magic3Dによって3Dモデルの合成を大衆化し、3Dコンテンツ制作におけるすべての人の創造性を開放することができると期待しています」と述べました。

この記事のタイトルとURLをコピーする

・関連記事
テキストを入力するだけで3Dモデルを生成できる3D自動生成AI「DreamFusion」 - GIGAZINE

たった1枚の画像から「奥行きがあり視点を前後左右に動かせる3D画像を生成する方法」が開発される - GIGAZINE

複数の静止画から3Dモデルを生成する技術「NeRF」はディープフェイクを進歩させるのか? - GIGAZINE

部屋の写真から自動的にインテリアのアイデアを提案するAI「INTERIOR AI」 - GIGAZINE

NVIDIAが高精度な画像生成AI「eDiffi」を発表、従来の「Stable diffusion」や「DALL・E2」よりテキストに忠実な画像生成が可能 - GIGAZINE

NVIDIAの画像生成AI「eDiffi」の言葉とペイントで画像を生成する「paint with words」を画像生成AI「Stable Diffusion」で実現 - GIGAZINE

NVIDIAがMicrosoftと協力して大規模なクラウドAIコンピューターを構築すると発表 - GIGAZINE

NVIDIAが超高性能ディープフェイク生成AI「Implicit Warping」をひっそり開発している - GIGAZINE

in ソフトウェア,   サイエンス, Posted by log1h_ik

You can read the machine translated English article here.