2023年07月25日 07時00分ソフトウェア

フレーム間の一貫性を維持したままムービーを文字で指定したテイストに変更できる技術「TokenFlow」が登場

一枚の画像を元に雰囲気を変更した画像を作成する技術は2022年時点で登場していましたが、その技術をそのままムービーに応用しようとするとフレームとフレームのつながりがいびつになったり、逆にフレーム間のつながりを重視しすぎてフレーム一枚一枚のクオリティが下がったりする問題が発生していました。「TokenFlow」はワイツマン科学研究所の研究者グループが開発した手法で、ムービーのフレーム間の一貫性やクオリティを保ちながら雰囲気だけを変更することが可能です。

TokenFlow: Consistent Diffusion Features for Consistent Video Editing
https://diffusion-tokenflow.github.io/

[2307.10373] TokenFlow: Consistent Diffusion Features for Consistent Video Editing
https://doi.org/10.48550/arXiv.2307.10373

下のムービーは実際にTokenFlowを利用して生成されたもの。

お兄さんが指の上でバスケットボールを回しています。これが元のムービーです。

「Shiny silver robot(輝く銀色のロボット)」というプロンプトを与えるとお兄さんはボールごと銀のメタリックな体に変身しました。

「Van Gogh Style(ファン・ゴッホ風)」では絵画っぽい見た目に。見た目は絵画ですが、お兄さんとボールの動きは非常にスムーズです。

「Star wars clone trooper(スターウォーズのクローン・トルーパー)」と指定するとお兄さんとボールが変化するだけでなく、背景まで宇宙っぽく変換されています。

従来の「フレームごとに雰囲気を変更していく」手法では、ボールの線の位置など、前後のフレームを元に適切な位置に配置する必要がある要素の扱いが苦手でしたが、TokenFlowの手法を用いると元のムービーと同等の一貫性を保つことが可能です。

TokenFlowでは、まず入力されたムービーの各フレームをDDIMで反転し、トークンを抽出します。続いて最近傍探索を用いてフレーム間の特徴の対応関係を抽出。

そして拡散モデルのノイズ除去フェイズにおいて、ノイズ混じりのムービーからキーフレームをサンプリングし、拡張アテンションブロックを使用して一括編集して「編集済みトークン」を作成します。ここで、先ほど抽出しておいたフレーム間の特徴の対応を利用して「編集済みトークン」をムービー全体に適応することで一貫性を確保しています。