AI

リアルタイム動画生成AI「LongLive-2.0」をNVIDIAが公開、FP4量子化を想定した学習により軽量かつ高品質な生成を実現


NVIDIAのAI研究チームが動画生成AIモデル「LongLive-2.0」を公開しました。LongLive-2.0はリアルタイム生成および長時間にわたる一貫した動画生成を目的として開発されたモデルで、NVFP4での量子化を念頭に設計することで省メモリかつ高精度な動画生成を実現しています。

LongLive-2.0
https://nvlabs.github.io/LongLive/LongLive2/

LongLive 2.0 - YouTube


AIモデルは「量子化」と呼ばれる技術を用いることでメモリ使用量を削減することができます。NVIDIAのBlackwell世代以降のGPUはFP4に量子化したAIモデルを実行できるのですが、既存のAIモデルの場合はFP4に量子化した際の品質低下が課題となっていました。LongLive-2.0はトレーニングの段階からNVFP4での量子化を念頭に設計されており、メモリ使用量を削減しつつ品質低下も抑えることができます。


以下の画像は左側がBF16精度、右側はNVFP4精度での動画生成結果を示しています。NVFP4精度だとテクスチャーの質感が粗くなっていますが、プロンプトの指示は守れています。


NVFP4量子化版のLongLive-2.0はメモリ使用量が19.4GBに抑えられており、生成速度はベースモデルと比べて1.84倍に高速化しています。


ベースモデルとNVFP4量子化版の生成結果の差はLongLive-2.0のプロジェクトページに掲載された作例で確認できます。


LongLive-2.0は「ベースモデル」「NVFP4量子化版の4ステップ生成モデル」「NVFP4量子化版の2ステップ生成モデル」の3種類がオープンモデルとして公開されています。ライセンスはNVIDIA Open Model Licenseです。

Efficient-Large-Model/LongLive-2.0-5B · Hugging Face
https://huggingface.co/Efficient-Large-Model/LongLive-2.0-5B

Efficient-Large-Model/LongLive-2.0-5B-NVFP4-S4 · Hugging Face
https://huggingface.co/Efficient-Large-Model/LongLive-2.0-5B-NVFP4-S4

Efficient-Large-Model/LongLive-2.0-5B-NVFP4-S2 · Hugging Face
https://huggingface.co/Efficient-Large-Model/LongLive-2.0-5B-NVFP4-S2

この記事のタイトルとURLをコピーする

・関連記事
Runwayが動画編集AI「Aleph 2.0」をリリース、動画の一部分を編集すると残りはAIが自動で編集してくれる - GIGAZINE

ついに動画生成AI「HappyHorse 1.0」が誰でも使用可能になったので使ってみた、日本語セリフも出力可能で実写風・アニメ風どっちもOK - GIGAZINE

Google DeepMindがマルチモーダル生成モデル「Gemini Omni」を発表、自然言語による対話と推論能力による動画生成・編集が可能に - GIGAZINE

動画生成AI「LTX-2」登場、ローカル動作するオープンモデルでNVIDIAによる「4K動画生成パイプライン」もあり - GIGAZINE

TikTok開発元が動画生成AI「Seedance 2.0」を発表、最大9枚の画像と最大3本を参考資料として入力可能 - GIGAZINE

in AI,   動画, Posted by log1o_hf

You can read the machine translated English article NVIDIA has unveiled 'LongLive-2.0,' a re….