AI

人工知能に空間&時間の4次元認識能力を与えるためのAI「D4RT」をGoogleが発表、「人間と同じように世界を認識できるAI」の開発に役立つ


Google DeepMindが動画をもとに3次元空間を時系列に沿って認識できるAI「D4RT」を開発しました。D4RTは既存モデルと比べて高精度かつ高速な空間認識が可能で、人間と同じように世界を認識できるAIの開発に役立つとされています。

D4RT
https://d4rt-paper.github.io/

D4RT: Unified, Fast 4D Scene Reconstruction & Tracking - Google DeepMind
https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

人間は視覚情報をもとに3次元空間を認識し、一瞬前と現在の状況をもとに未来の状況を推測することができます。このため、AIに人間と同様の世界認識能力を持たせるには「カメラで撮影した映像の認識能力」だけでなく、「カメラの映像をもとに立体的な3次元空間を構築し、時系列に沿って動きを理解する」という空間と時間を組み合わせた4次元認識能力も必要です。

D4RTはカメラで記録した映像をもとに3次元空間を構築し、すべてのオブジェクトのすべてのピクセルを時系列に沿って認識可能です。


既存のAIモデルで同様の4次元認識システムを構築するには「深度認識AI」「動体認識AI」「カメラアングル認識AI」といった複数の専用AIモデルを組み合わせる必要があり、処理に時間がかかっていました。一方でD4RTはTransformerベースの単一モデルで必要な処理を実行可能であり、精度とスピードを両立することに成功しています。


各種AIの4次元認識性能を比較したグラフが以下。D4RTは既存モデルと比べて高い認識性能を示しています。また、既存の技術では1分間の動画を処理するのに10分かかりましたが、D4RTでは約5秒で処理を完了できるとのこと。Google DeepMindは「D4RTは既存の技術と比べて120倍の高速化を実現した」とアピールしています。


D4RTの技術論文は以下のリンク先で公開されています。

[2512.08924] Efficiently Reconstructing Dynamic Scenes One D4RT at a Time
https://arxiv.org/abs/2512.08924

この記事のタイトルとURLをコピーする

・関連記事
Googleの画像生成AIはなぜ「Nano Banana」という名前なのか? - GIGAZINE

Googleがロボット用のAIモデル「Gemini Robotics 1.5」を発表、思考して行動を決定できる - GIGAZINE

翻訳特化のAIモデル「TranslateGemma」をGoogleが公開、日本語も対応 - GIGAZINE

Googleの動画生成AI「Veo 3.1」がアップデートされてキャラクターの一貫性が向上し4Kアップスケーリングにも対応 - GIGAZINE

GoogleがCT画像やMRIデータに対応した医療特化AIモデル「MedGemma 1.5 4B」と文字起こしモデル「MedASR」を公開 - GIGAZINE

Google初のAIスマートグラスは2026年に登場予定 - GIGAZINE

in AI,   動画,   ソフトウェア, Posted by log1o_hf

You can read the machine translated English article Google announces 'D4RT,' an AI that give….