2025年02月05日 15時10分ソフトウェア

もう何も信じられないレベルでリアルなディープフェイク動画が作れるByteDanceのAI「OmniHuman-1」が登場

1枚の写真から人が自然に話したり、歌ったり、動いたりするリアルな動画を出力するAIシステム「OmniHuman-1」を中国のByteDanceが発表しました。

omnihuman-lab.github.io/
https://omnihuman-lab.github.io/

OmniHuman: ByteDance’s new AI creates realistic videos from a single photo | VentureBeat
https://venturebeat.com/ai/omnihuman-bytedances-new-ai-creates-realistic-videos-from-a-single-photo/

Deepfake videos are getting shockingly good | TechCrunch
https://techcrunch.com/2025/02/04/deepfake-videos-are-getting-shockingly-good/

ByteDanceは2025年2月3日に、エンドツーエンドのマルチモーダル条件付き人間動画生成フレームワークであるOmniHumanを発表しました。このモデルは、1枚の人間の画像とモーションシグナル、例えば音声のみ、映像のみ、またはそれらの組み合わせから、人物の映像を生成することが可能です。

ベンチマークでは品質やリアリティなどの項目で従来のモデルより優れたスコアを示しました。

発表によると、OmniHumanはテキスト、音声、体の動きなど複数の入力を組み合わせたアプローチと、1万8700時間を超える人物の動画データでトレーニングされているとのこと。

こうして開発されたOmniHumanが生成した動画の例が以下。レザージャケットがトレードマークのNVIDIAのジェンスン・フアンCEOが軽快なラップを歌っています。

OmniHuman-1 AI Video - sing1 - YouTube

また、以下は架空のテイラー・スウィフトのパフォーマンスです。任意のアスペクト比の動画が生成可能なことが示されています。

OmniHuman-1 AI Video - sing8 - YouTube

さらに、顔や上半身だけしか動かせないことが多かった従来のモデルとは異なり、全身を動かすこともできます。

ByteDance OmniHuman-1 - YouTube

有名なアインシュタインの白黒写真からは、あたかも本当に講義をしているかのような動画が生成されました。手に持っているチョークが曖昧な物体になっているのを除けば、非常にリアルです。

ByteDance OmniHuman-1 sample - YouTube

イラストやアニメ、3DCGのようなトーンの動画も生成できます。

pic.twitter.com/zKNNqVcpCh
— Rohan Paul (@rohanpaul_ai) February 4, 2025

OmniHumanは、混合条件付きトレーニングというアプローチにより音声を元に動画を動かすことも、別の映像を模倣することも、それらを組み合わせることもできます。以下の比較動画を見ると、そのことがよくわかります。

OmniHuman-1が生成した動画サンプル - YouTube

このようなAIモデルの進歩は、映像コンテンツにイノベーションをもたらすと期待されている一方で、扇動や詐欺目的のディープフェイク動画による影響がさらに激化すると危惧する声もあります。例えば、2024年に行われた台湾の選挙では、中国共産党系の団体が親中派の候補者を支持するようなAI生成コンテンツを拡散したことが(PDFファイル)報告されています。

ITニュースサイト・VentureBeatはOmniHumanについて、「業界の専門家は、こうした技術がエンターテインメント制作、教育コンテンツ制作、デジタル通信に変革をもたらす可能性があると述べています。しかし、欺瞞(ぎまん)目的で合成メディアを作成するという悪用の可能性についての疑念も生じています」とコメントしました。

この記事のタイトルとURLをコピーする