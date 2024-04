2024年04月19日 11時49分 ソフトウェア

Microsoftが顔写真と音声ファイルからリアルに話す映像を作成できるAIモデル「VASA-1」公開



Microsoftの研究機関であるMicrosoft Researchが、1枚の顔写真と音声ファイルから「本物の人間そっくりな話し顔」を生成することができるAIモデルの「VASA-1」を発表しました。VASA-1は音声ファイルとリップシンクしながら、顔写真の表情を自然に変化させ、生き生きとした「話し顔」を生成することができます。



VASA-1は1枚の顔写真と音声ファイルを取り込むだけで、音声ファイルの内容を顔写真が読み上げているかのようなリアルな動画を生成することができるというAIモデルです。VASA-1は記事作成時点ではリサーチプレビュー版となっているため、Microsoft Researchの研究チーム以外はモデルを試すことはできません。ただし、Microsoft ResearchはVASA-1のデモンストレーション動画を公開しており、これを見るだけでどのようなAIモデルになっているのかが一発でわかります。



顔写真と音声ファイルからリアルな話し顔の映像を作成できるMicrosoftのAIモデル「VASA-1」のデモンストレーション動画 - YouTube





まずは使用する顔写真を選択。





続いて、顔写真に読み上げて欲しい音声ファイルを選択。





すると、顔写真が自然にしゃべり始めました。口元の動きはとても自然。





表情豊かに話しており、口元が動くだけでなくまばたきしたり、顔を左右に細かく動かしたりします。





性別も人種も関係なくリアルな話し顔が生成可能。





この他、たった1枚の顔写真から動画を生成しているはずなのに、顔の向きを変更しても全く違和感がありません。





なお、NVIDIAのRTX 4090を搭載したデスクトップPCを使用すると、フレームレート45fps、解像度が512×512ピクセルの「話し顔動画」を約2分で生成することができるそうです。





リアルな話し顔を生成するAIモデルは、RunwayやNVIDIAがすでに公開しています。しかし、VASA-1は品質とリアリズムの面においてはるかに精度が高く、「口元のアーティファクトが軽減されている」とテクノロジーメディアのTom's Guideは指摘しています。



Microsoftによると、VASA-1はバーチャルキャラクターをアニメーション化することを目的として作成されたもので、サンプルとして用意された人物の顔写真はすべてOpenAIの画像生成AIであるDALL-Eを使用して作成された「架空の人物の顔写真」だそうです。





Tom's Guideは「VASA-1は高度なリップシンクが可能であるため、キャラクターの唇の動きと音声を正確に同期することで、AI主導のNPCを作成できるようになれば、ゲームの没入感に大きな変革をもたらす可能性があります」と述べ、VASA-1の高度なリップシンクがゲーム開発に役立つ可能性について言及しています。



ただし、Microsoft ResearchはVASA-1についてあくまで研究上におけるデモンストレーションであり、一般公開の予定はなく、開発者向けに製品化する予定もないとしています。



なお、研究チームはトレーニングデータセットに音楽が含まれていないにもかかわらず、VASA-1が歌を完璧に口パクすることに成功したことに驚いたと説明していました。