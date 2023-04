NVIDIAが発表したVideoLDMには、最大41億のパラーメーターがありますが、そのうちトレーニングに使用した動画は27億です。これは、AI開発の基準からするとかなり控えめな水準ですが、NVIDIAは効率的な潜在拡散モデル(Latent Diffusion Model:LDM)により高解像度で、時間的に一貫性のある、多様な動画を作成できるモデルの開発に成功しました。 VideoLDMが生成した動画の例が以下。「A teddy bear is playing the electric guitar, high definition, 4k(テディベアがエレキギターを弾いている。高画質。4K)」というプロンプトにより、クレイアニメのような趣のあるテディベアのアニメーションを高画質で生成することができました。 VideoLDMの特徴は、大きく分けて2つあります。1つ目は、パーソナライズされた映像の生成です。VideoLDMは、特定の画像を事後学習させる「 DreamBooth 」という手法で調整することで、パーソナライズされた「テキストから動画の合成(text-to-video)」を行うことができます。 例えば、以下のような猫の画像を使用したとします。

NVIDIA Introduces AI That Generates High-resolution Videos Based On Text Descriptions - Tech News Space https://technewsspace.com/nvidia-introduces-ai-that-generates-high-resolution-videos-based-on-text-descriptions/

NVIDIAが、アメリカのコーネル大学と共同で開発したAIモデル「 Video Latent Diffusion Model (VideoLDM)」を発表しました。VideoLDMは、テキストで入力した説明に基づき、最大2048×1280ピクセルの解像度、24fpsの動画を最長4.7秒生成することができます。 Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models https://research.nvidia.com/labs/toronto-ai/VideoLDM/

2023年04月20日 21時00分00秒 in ソフトウェア, 動画, Posted by log1l_ks

