2024年03月01日 12時30分ソフトウェア

写真やイラストをリアルに歌わせたりしゃべらせたりできるAIシステム「EMO」が登場

中国のテクノロジー企業・Alibabaのインテリジェント・コンピューティング研究所のチームが、写真や画像をアニメ化してリアルに話したり歌を歌ったりしているように動く映像を生成できるAIシステム「Emote Portrait Alive(EMO)」を発表しました。

EMO
https://humanaigc.github.io/emote-portrait-alive/

Alibaba's new AI system 'EMO' creates realistic talking and singing videos from photos | VentureBeat
https://venturebeat.com/ai/alibabas-new-ai-system-emo-creates-realistic-talking-and-singing-videos-from-photos/

今回、Alibabaの研究者らがプレプリントサーバー・arXivで発表した「EMO」は、入力したオーディオトラックに一致するように、滑らかで表現力豊かな表情と頭の動きを生成することができます。

以下のムービーを再生すると、EMOによって生成された映像を実際に見ることができます。

EMO-Emote Portrait Alive - YouTube

ムービーの冒頭では、オードリー・ヘップバーンのモノクロ写真が歌を歌っています。

インタビュー映像のように話をさせることも可能です。

EMOには拡散モデルと呼ばれるAI技術が使われてています。また、研究者らはモデルをトレーニングするにあたり、合計250時間以上のスピーチ、映画、テレビ番組、歌唱の映像を使用しました。

こうして開発されたEMOは、3Dの顔モデルや輪郭の合成に依存して顔の動きを模倣していた従来の方法とは異なり、入力された音声から直接映像を生成します。これにより、歌唱や発話に伴う微妙な動きや固有の癖を捉えて自然な映像を出力することができるようになりました。

歌う映像の出力に必要なのは、1枚の画像と音声だけです。

ラップのように口が激しく動くような歌でも問題ありません。

話す映像も生成可能です。

論文によると、EMOはビデオ品質、アイデンティティの保持、表現力を測定する指標で、これまでの最先端の手法を大幅に上回るスコアを示したとのこと。

研究チームは論文の中で「従来の技術では、人間の表情の全領域を捉えることができないことが多く、また、個々の顔のスタイルの独自性を捉えることができないという限界があります。これらの問題に対処するため、中間3Dモデルや顔のランドマークの指定の必要性を回避し、音声から映像への直接合成アプローチを利用する新しいフレームワークであるEMOを提案します」と述べました。