ソフトウェア

Microsoftが顔写真と音声ファイルからリアルに話す映像を作成できるAIモデル「VASA-1」公開


Microsoftの研究機関であるMicrosoft Researchが、1枚の顔写真と音声ファイルから「本物の人間そっくりな話し顔」を生成することができるAIモデルの「VASA-1」を発表しました。VASA-1は音声ファイルとリップシンクしながら、顔写真の表情を自然に変化させ、生き生きとした「話し顔」を生成することができます。

VASA-1 - Microsoft Research
https://www.microsoft.com/en-us/research/project/vasa-1/


Cool or creepy? Microsoft's VASA-1 is a new AI model that turns photos into 'talking faces' | Tom's Guide
https://www.tomsguide.com/ai/ai-image-video/microsoft-wants-your-photos-to-talk-vasa-1-is-a-new-ai-model-to-turn-images-into-talking-faces

VASA-1は1枚の顔写真と音声ファイルを取り込むだけで、音声ファイルの内容を顔写真が読み上げているかのようなリアルな動画を生成することができるというAIモデルです。VASA-1は記事作成時点ではリサーチプレビュー版となっているため、Microsoft Researchの研究チーム以外はモデルを試すことはできません。ただし、Microsoft ResearchはVASA-1のデモンストレーション動画を公開しており、これを見るだけでどのようなAIモデルになっているのかが一発でわかります。

顔写真と音声ファイルからリアルな話し顔の映像を作成できるMicrosoftのAIモデル「VASA-1」のデモンストレーション動画 - YouTube


まずは使用する顔写真を選択。


続いて、顔写真に読み上げて欲しい音声ファイルを選択。


すると、顔写真が自然にしゃべり始めました。口元の動きはとても自然。


表情豊かに話しており、口元が動くだけでなくまばたきしたり、顔を左右に細かく動かしたりします。


性別も人種も関係なくリアルな話し顔が生成可能。


この他、たった1枚の顔写真から動画を生成しているはずなのに、顔の向きを変更しても全く違和感がありません。


なお、NVIDIAのRTX 4090を搭載したデスクトップPCを使用すると、フレームレート45fps、解像度が512×512ピクセルの「話し顔動画」を約2分で生成することができるそうです。


リアルな話し顔を生成するAIモデルは、RunwayやNVIDIAがすでに公開しています。しかし、VASA-1は品質とリアリズムの面においてはるかに精度が高く、「口元のアーティファクトが軽減されている」とテクノロジーメディアのTom's Guideは指摘しています。

Microsoftによると、VASA-1はバーチャルキャラクターをアニメーション化することを目的として作成されたもので、サンプルとして用意された人物の顔写真はすべてOpenAIの画像生成AIであるDALL-Eを使用して作成された「架空の人物の顔写真」だそうです。


Tom's Guideは「VASA-1は高度なリップシンクが可能であるため、キャラクターの唇の動きと音声を正確に同期することで、AI主導のNPCを作成できるようになれば、ゲームの没入感に大きな変革をもたらす可能性があります」と述べ、VASA-1の高度なリップシンクがゲーム開発に役立つ可能性について言及しています。

ただし、Microsoft ResearchはVASA-1についてあくまで研究上におけるデモンストレーションであり、一般公開の予定はなく、開発者向けに製品化する予定もないとしています。

なお、研究チームはトレーニングデータセットに音楽が含まれていないにもかかわらず、VASA-1が歌を完璧に口パクすることに成功したことに驚いたと説明していました。

この記事のタイトルとURLをコピーする

・関連記事
Microsoftが東京にAI研究拠点を設置し4400億円の投資で国内の計算処理能力を強化 - GIGAZINE

Microsoftが「AIに関する特別イベント」を2024年5月に開催、Surface Pro 10やAI Explorerの詳細も明らかになるか - GIGAZINE

MicrosoftがAI機能を強化した「Surface Pro 10」と「Surface Laptop 6」を2024年3月下旬に発表する可能性 - GIGAZINE

MicrosoftがAIアシスタント・Copilotのフル機能版「Copilot Pro」を発表、月額2900円で最新LLMを利用したりオリジナルCopilotを構築したり - GIGAZINE

in ソフトウェア,   動画, Posted by logu_ii

You can read the machine translated English article here.