2024年12月05日 10時45分ソフトウェア

Google DeepMindが1枚の画像からプレイ可能な3D世界を生成できるAIモデル「Genie 2」を発表

Google DeepMindが、単一の入力画像からプレイ可能な3D環境を生成できる基盤的世界モデル「Genie 2」を2024年12月4日に発表しました。Genie 2で生成した世界は、人間やAIエージェントがキーボードとマウスを使った操作で移動することが可能です。

Genie 2: A large-scale foundation world model - Google DeepMind
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

Genie 2は大規模な動画データセットで訓練された自己回帰潜在拡散モデルで、物理演算、キャラクターアニメーション、オブジェクトの相互作用など、様々な創発的能力を示します。画像生成AI「Imagen 3」で生成した画像を入力としてプレイ可能な3D環境を作り出し、最大1分程度動き回ることができます。

例えば、Imagen 3で「三人称オープンワールド探索ゲームのスクリーンショット。プレイヤーは森を探索する冒険者です。左側に赤いドアの家があり、右側に青いドアの家があります。カメラはプレイヤーの真後ろに配置されています。#フォトリアリスティック #没入感」というプロンプトで生成した画像はこんな感じ。

この画像からGenie 2が生成した3D世界を、AIエージェントのSIMAに「青いドアを開けてください」と指示して動かしたところが以下のムービー。

Genie 2は、キーボードのキーを押すことで実行されるアクションに応答し、キャラクターを識別して正しく移動させます。また、視界に入らなくなった部分を記憶することで、再び視界に入った時に正確にレンダリングすることができます。

以下は、「Imagen 3でテキストプロンプトから生成した画像」からGenie 2で生成した3D環境の中を動いて回る様子。

Genie 2では、一人称視点や三人称視点だけでなく、ドライブゲームのように車の後ろを追いかけるような視点やクオータービューのように斜めから見下ろすような視点も生成可能です。

また、Genie 2は重力、水、煙、反射、照明などの物理的な効果も表現でき、複雑なキャラクターアニメーション、他のNPCとの相互作用、リアルな照明と反射効果なども実現できます。

さらに、Genie 2はImagen 3で生成した画像だけでなく、実世界の写真やコンセプトアートからも環境を生成できる機能を持っているとのこと。Google DeepMindは「Genie 2により、研究者たちはAIエージェントの訓練用に多様な環境を素早く作り出すことができ、アーティストやデザイナーは自分のアイデアを迅速にプロトタイプ化することができる」と述べています。

Genie 2の研究開発はまだ初期段階にあるとのことで、Google DeepMindはこの技術が安全にAIエージェントを訓練し、汎用AIに向けた研究を進めるための重要なステップになると考えています。Genie 2の研究チームは今後も生成能力の一般性と一貫性の向上に取り組んでいく予定だと語りました。