大規模言語モデルが文章を扱うように3Dオブジェクトを扱える生成AI「MeshGPT」が登場
大規模言語モデルが言語を話す仕組みを利用して3Dオブジェクトを生成するAI「MeshGPT」が登場しました。
MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers
https://nihalsid.github.io/mesh-gpt/
[2311.15475] MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers
https://arxiv.org/abs/2311.15475
MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers - YouTube
大規模言語モデルは言語を話せるほか、トレーニング次第ではプログラミング言語を「話す」ことが可能になります。
そこで研究チームはモデルに対し、3Dオブジェクトの構成要素であるメッシュを「話す」ことができるようにトレーニングを行いました。
具体的なトレーニングの手法はこんな感じ。まずはさまざまな3Dオブジェクトのデータを元にメッシュの「語彙(ごい)」を学ばせ、次に学習した語彙に基づいてTransformerをトレーニングしています。
語彙学習の仕組みは下図の通り。ニューラルネットワークがメッシュのジオメトリやトポロジーの情報を扱えるようにしています。
語彙学習の後、大規模言語モデルに単語と単語のつながりを覚えさせるのと同様に、Transformerにメッシュとメッシュのつながりを覚えさせます。
大規模言語モデルが文章の続きを書けるのと同じように、MeshGPTはモデルの一部を元に残りの部分を完成させることが可能。
MeshGPTは他の手法に比べて頂点の数が多すぎたり少なすぎたりせず、適度にディテールのあるモデルを生成することができるとのこと。
生成物の品質を示すFIDスコアが30ポイント向上したり、形状カバレッジが9%増加したりするなど、MeshGPTはメッシュの生成を大きく改善できたと述べられています。
・関連記事
「AIの力で3Dモデルを作成する」とうたう企業が実は人力だった - GIGAZINE
ムービーを高品質な3Dデータに変換できる手法が登場 - GIGAZINE
テキストや画像から3Dモデルを生成するオープンソースのAI「Shap-E」をOpenAIが発表 - GIGAZINE
ギザの大ピラミッドの中を自由に見て回れる3Dバーチャルツアー「Inside the Great Pyramid」 - GIGAZINE
3Dモデル生成AI「Point-E」をOpenAIがオープンソース化して誰でもダウンロード可能に、これまでの600倍高速にプロンプトから3Dオブジェクトを生成して表示可能 - GIGAZINE
・関連コンテンツ
in ソフトウェア, Posted by log1d_ts
You can read the machine translated English article Introducing generative AI 'MeshGPT' that….