ソフトウェア

2D画像を入力するだけで遠近感のある没入型3D動画を生成できる動画生成AI「Stable Virtual Camera」をStability AIが発表


Stable Diffusionなどの生成AIを開発するStability AIが、2D画像をリアルな奥行きと遠近感を備えた没入型3D動画に変換できる動画生成AIの「Stable Virtual Camera」を発表しました。

Introducing Stable Virtual Camera: Multi-View Video Generation with 3D Camera Control — Stability AI
https://stability.ai/news/introducing-stable-virtual-camera-multi-view-video-generation-with-3d-camera-control


Stable Virtual Cameraはマルチビュー拡散モデルで、複雑な再構成やシーン固有の最適化を必要とせずに、2D画像をリアルな奥行きと遠近感を備えた没入型3D動画に変換することができるという動画生成AIです。

Blenderなどの3DCGツールでアニメーションを出力する際は、3D空間内の自由な位置に仮想カメラを設置して構図や動きを指定できます。Stable Virtual Cameraは動画生成AIに仮想カメラの概念を導入するもので、従来の仮想カメラの使い慣れたコントロールと生成AIのパワーを組み合わせて、3D動画出力を正確かつ直感的にコントロールできます。


大量の入力画像や複雑な前処理に依存する従来の3D動画モデルとは異なり、Stable Virtual Cameraはユーザーが指定したカメラ角度で1つ以上の入力画像からシーンの新しいビューを生成することが可能です。Stable Virtual Cameraは一貫性のあるスムーズな3D動画を出力し、動的なカメラパス全体にわたってシームレスな軌跡動画を提供できます。

Stable Virtual Cameraに画像を入力するとどんな動画を出力できるのかは、以下の動画を見ればよくわかります。


入力画像が以下


これに対して仮想カメラのパス(軌跡)を指定(左)すると、それに則した3D動画を生成することが可能です。


Stable Virtual Cameraで使える4つの高度な機能が以下。

・動的カメラ制御
ユーザー定義のカメラ軌道と、360度、レムニスケート(無限形状のパス)、スパイラル、ドリーズームイン、ドリーズームアウト、ズームイン、ズームアウト、前進、後退、パンアップ、パンダウン、パン左、パン右、ロールなど、複数の動的カメラパスをサポートします。

・柔軟な入力
1つの入力画像からでも最大32枚の入力画像からでも3D動画を生成可能。

・複数のアスペクト比
追加のトレーニングなしで、正方形(1:1)、縦長(9:16)、横長(16:9)、その他のカスタムアスペクト比で動画を制作できます。

・長い動画生成
最大1000フレームの動画で3Dの一貫性を確保し、同じ視点を再訪する場合でもシームレスなループとスムーズな遷移(せんい)を可能にします。

Stable Virtual Cameraは新しいビュー生成(NVS)ベンチマークで最先端の結果を達成しており、ViewCrafterやCAT3Dといったモデルを上回るパフォーマンスを発揮しています。各種ベンチマークで知覚品質(LPIPS)と精度(PSNR)を測定した結果を比較したグラフが以下で、紫色の線がStable Virtual Cameraのスコアです。Stable Virtual CameraはほとんどのベンチマークでLPIPSおよびPSNRのスコアが競合AIモデルを大幅に上回っています。


Stable Virtual Cameraは、設定された数の入力ビューとターゲットビュー(M-in、N-out)を使用して、固定シーケンス長のマルチビュー拡散モデルとしてトレーニングされます。サンプリング中は、可変の入力および出力長(P-in、Q-out)に対応する柔軟な生成レンダラーとして機能し、2パスの手続き型サンプリングプロセスによって実現されます。最初にアンカービューを生成し、次にターゲットビューをチャンクでレンダリングすることで、スムーズで一貫した結果を保証できるそうです。


Stable Virtual Cameraは記事作成時点では研究プレビュー段階にあるため、特定のシナリオで低品質の動画を生成してしまう可能性があります。また、人間・動物・水などの動的なテクスチャを特徴とする入力画像は、多くの場合、出力品質が低下するという問題を抱えています。加えて、「非常に曖昧なシーン」「オブジェクトまたは表面と交差する複雑なカメラパス」「不規則な形状のオブジェクト」は、特にターゲットの視点が入力画像と大きく異なる場合に、ちらつきアーティファクトを引き起こす可能性があるそうです。

なお、Stable Virtual Cameraは非商用ライセンスの下で研究目的で使用可能です。論文が公開されているだけでなく、Hugging Faceからウェイトをダウンロードしたり、GitHubからコードにアクセスしたりすることも可能です。

LICENSE · stabilityai/stable-virtual-camera at main
https://huggingface.co/stabilityai/stable-virtual-camera/blob/main/LICENSE

GitHub - Stability-AI/stable-virtual-camera: Stable Virtual Camera: Generative View Synthesis with Diffusion Models
https://github.com/Stability-AI/stable-virtual-camera

この記事のタイトルとURLをコピーする

・関連記事
Stability AIがArmと提携してスマホ上で音楽生成AIを直接動かす技術を開発 - GIGAZINE

画像生成AI「Stable Diffusion 3.5」シリーズの3モデルがオープンリリースされる、高いカスタマイズ性・プロンプトへの忠実性・高品質が特徴 - GIGAZINE

画像生成AI「Stable Diffusion」の開発元・Stability AIで幹部やエンジニアが相次いで辞任、CEOのリーダーシップが問われる - GIGAZINE

Stability AIがChatGPTと同等の性能を持つオープンソースの大規模言語モデル「FreeWilly」を公開 - GIGAZINE

680億円分以上になる株式を2万円以下でだまし取られたとしてStable Diffusion開発元のStability AIを共同創業者が訴える - GIGAZINE

in ソフトウェア,   動画, Posted by logu_ii

You can read the machine translated English article Stability AI announces 'Stable Virtual C….