フレーム間の一貫性を維持したままムービーを文字で指定したテイストに変更できる技術「TokenFlow」が登場
一枚の画像を元に雰囲気を変更した画像を作成する技術は2022年時点で登場していましたが、その技術をそのままムービーに応用しようとするとフレームとフレームのつながりがいびつになったり、逆にフレーム間のつながりを重視しすぎてフレーム一枚一枚のクオリティが下がったりする問題が発生していました。「TokenFlow」はワイツマン科学研究所の研究者グループが開発した手法で、ムービーのフレーム間の一貫性やクオリティを保ちながら雰囲気だけを変更することが可能です。
TokenFlow: Consistent Diffusion Features for Consistent Video Editing
https://diffusion-tokenflow.github.io/
[2307.10373] TokenFlow: Consistent Diffusion Features for Consistent Video Editing
https://doi.org/10.48550/arXiv.2307.10373
下のムービーは実際にTokenFlowを利用して生成されたもの。
お兄さんが指の上でバスケットボールを回しています。これが元のムービーです。
「Shiny silver robot(輝く銀色のロボット)」というプロンプトを与えるとお兄さんはボールごと銀のメタリックな体に変身しました。
「Van Gogh Style(ファン・ゴッホ風)」では絵画っぽい見た目に。見た目は絵画ですが、お兄さんとボールの動きは非常にスムーズです。
「Star wars clone trooper(スターウォーズのクローン・トルーパー)」と指定するとお兄さんとボールが変化するだけでなく、背景まで宇宙っぽく変換されています。
従来の「フレームごとに雰囲気を変更していく」手法では、ボールの線の位置など、前後のフレームを元に適切な位置に配置する必要がある要素の扱いが苦手でしたが、TokenFlowの手法を用いると元のムービーと同等の一貫性を保つことが可能です。
TokenFlowでは、まず入力されたムービーの各フレームをDDIMで反転し、トークンを抽出します。続いて最近傍探索を用いてフレーム間の特徴の対応関係を抽出。
そして拡散モデルのノイズ除去フェイズにおいて、ノイズ混じりのムービーからキーフレームをサンプリングし、拡張アテンションブロックを使用して一括編集して「編集済みトークン」を作成します。ここで、先ほど抽出しておいたフレーム間の特徴の対応を利用して「編集済みトークン」をムービー全体に適応することで一貫性を確保しています。
プロジェクトページでは多数の見本や、他のモデルとの比較ムービーなどが用意されているため、気になった人は確認してみて下さい。
また、GitHub上でコードが公開される予定ですが、記事作成時点では「CODE IS COMING SOON!」となっておりまだ公開されていませんでした。
・関連記事
画像生成AI「Stable Diffusion」がどのような仕組みでテキストから画像を生成するのかを詳しく図解 - GIGAZINE
テキストを入力するだけで3Dモデルを生成できる3D自動生成AI「DreamFusion」 - GIGAZINE
無料で使えるムービー生成AI「Text2Video-Zero」が登場したので実際に使ってサクッとムービーを作ってみた - GIGAZINE
テキストから動画を生成できるAI「Runway Gen 2」登場、ジェネレーティブAIの主戦場はついに映像へ - GIGAZINE
画像生成AI「Stable Diffusion」でムービーを作成できる「stable-diffusion-videos」を使ってみた - GIGAZINE
・関連コンテンツ
in ソフトウェア, 動画, アート, Posted by log1d_ts
You can read the machine translated English article Technology 'TokenFlow' that can change t….