ソフトウェア

TikTokの親会社ByteDanceがテキストから高品質かつ忠実な動画を生成するAI「MagicVideo-V2」を発表


TikTokの親会社であるByteDanceの研究チームが、テキストに忠実かつ高品質な動画を生成するAI「MagicVideo-V2」を発表しました。人間によるパフォーマンス評価では、MagicVideo-V2がテキストから動画を生成するその他の最先端AIよりも優れているという結果が得られたとのことです。

[2401.04468] MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
https://arxiv.org/abs/2401.04468


MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
https://magicvideov2.github.io/

MagicVideo-V2は、ByteDanceの研究チームが開発したテキストから動画を生成するAIです。基本的な構造は以下のようになっており、まずは入力されたテキストに基づいて「T2I(Text to Image)」モジュールで1024×1024ピクセルの画像を生成します。続いて「I2V(Image to Video)」モジュールで、静止画像から連続して動画になる600×600ピクセルの画像を32枚生成し、さらに「V2V(Video to Video)」モジュールで1048×1048ピクセルの解像度に拡張するとのこと。最後に「Interpolation(内挿)」モジュールでシーケンスを94フレームに拡張すると説明されています。


「MagicVideo-V2」が生成した動画と、MoonvalleyPika 1.0Morph StudioGen-2Stable Video Diffusion XT(SVD-XT)など他の最先端の動画生成AIで作った動画を人間が比較した結果を示したグラフが以下。緑の「MagicVideo-V2の方が優れている」と回答した人の割合はいずれのAIに対しても過半数を超えており、「MagicVideo-V2」が生成する動画の評価が高いことがわかります。


実際に研究チームが公開している「MagicVideo-V2」で生成した動画の一例が以下の通り。

ByteDanceのAI「MagicVideo-V2」が生成した「紫のローブを着た歩くウサギ」の動画 - YouTube


ByteDanceのAI「MagicVideo-V2」が生成した「ピアノを弾くピンクのドレスを着た少女」の動画 - YouTube


ByteDanceのAI「MagicVideo-V2」が生成した「自撮りするパンダ」の動画 - YouTube


また、公式ページには「MagicVideo-V2が生成した動画」「SVD-XTが生成した動画」「Pika 1.0が生成した動画」を同じプロンプトで比較したものも公開されています。「A little boy is riding a bike on a park path, the wheels crunching on the gravel(小さな男の子が公園の小道を自転車で走っている)」というプロンプトで比較してみたのが以下。左から順に「MagicVideo-V2が生成した動画」「SVD-XTが生成した動画」「Pika 1.0が生成した動画」となっており、ぱっと見た印象ではMagicVideo-V2が生成する動画はSVD-XTとほぼ同レベルで、Pika 1.0の精度を上回っているように思われます。


「A fox dressed in suit dancing in park(公園で踊るスーツ姿のキツネ)」というプロンプトで比較するとこんな感じでした。

この記事のタイトルとURLをコピーする

・関連記事
テキストや画像から動画を生成するAI「Stable Video Diffusion」をStability AIが公開へ - GIGAZINE

簡単なテキストから写実的な動画を生成する拡散モデル「W.A.L.T」が登場 - GIGAZINE

Metaが文章から違和感ゼロの動画を生成するAI「Emu Video」&文章で指示して画像を編集できるAI「Emu Edit」を発表 - GIGAZINE

無料で使えるムービー生成AI「Text2Video-Zero」が登場したので実際に使ってサクッとムービーを作ってみた - GIGAZINE

テキストから動画を生成できるAI「Runway Gen 2」登場、ジェネレーティブAIの主戦場はついに映像へ - GIGAZINE

ムービーとテキストからフレーム間の一貫性を維持して実用性の高いムービーを生成するAI「StableVideo」 - GIGAZINE

in ソフトウェア,   ネットサービス,   動画, Posted by log1h_ik

You can read the machine translated English article here.