ソフトウェア

Googleがたった1枚の写真と音声から「身ぶり手ぶりを交えて話すリアルな動画」を生成するAI「VLOGGER」を発表


Googleの研究チームが、写真1枚と音声を入力することで「音声に合わせて身ぶり手ぶりを交えて話すリアルな動画」を生成できるAIフレームワーク「VLOGGER」を発表しました。

VLOGGER
https://enriccorona.github.io/vlogger/


Google researchers unveil 'VLOGGER', an AI that can bring still photos to life | VentureBeat
https://venturebeat.com/ai/google-researchers-unveil-vlogger-an-ai-that-can-bring-still-photos-to-life/

Google researchers unite to create Vlogger | Cybernews
https://cybernews.com/tech/google-researchers-create-vlogger/

Google Researchで人体3Dと生成AIの研究をしているエンリック・コロナ氏が率いる研究チームは、拡散モデルと呼ばれる機械学習モデルの一種を活用してVLOGGERを開発しました。

VLOGGERで動画を生成するために必要なのは、基となる画像データとそれに合わせる音声データです。最初のネットワークでは、音声データから取得された波形データを基にして、人物の視線・表情・ポーズからなる「body motion controls(ボディ・モーション・コントロール)」が作成されます。次のネットワークでは大規模な画像拡散モデルを拡張し、入力画像からボディ・モーション・コントロールに対応するフレームを生成するという仕組みです。


VLOGGER開発の鍵となったのは、80万人分を超える多様なアイデンティティと合計2200時間を超える動画を含む「MENTOR」というデータセットです。この高精度で膨大なデータセットで訓練することにより、VLOGGERはさまざまな民族・年齢・服装・ポーズ・周辺環境を、バイアスを混ぜずに動画として生成できるようになったとのこと。

流れる音声データに合わせて人物の口や表情、手などが動きます。


研究チームが示したVLOGGERの動画生成例が以下。


生成できる動画は短く、よく見るとぎこちない部分があります。しかし研究チームは、「VLOGGERを3つの異なるベンチマークで評価したところ、提案されたモデルが画質、同一性保持、時間的一貫性において他の最先端の手法を上回っていることが示されました」と主張しました。


また、研究チームは、「先行研究とは対照的に、私たちの手法は各個人のトレーニングを必要とせず、顔検出やトリミングに頼らずに顔や唇だけではない完全な画像を生成し、コミュニケーションする人間を正しく合成するために重要な幅広いシナリオ(目に見える胴体や多様な被験者のアイデンティティ)を考慮しています」と述べています。


テクノロジー系メディアのVentureBeatはVLOGGERについて、「俳優が新しいパフォーマンスをするために自らの詳細な3Dモデルを取得できる」「VRやゲーム用の写実的なアバター作成に利用できる」「魅力的で表現力豊かなバーチャルアシスタントの作成に利用できる」といった可能性があると主張。その一方で、ディープフェイクなどに悪用される危険性もあると指摘し、「このようなAI生成動画がよりリアルで作成も簡単になるほど、フェイクニュースやデジタルコンテンツの捏造(ねつぞう)を巡る課題が悪化する可能性があります」と警告しました。

◆フォーラム開設中
本記事に関連するフォーラムをGIGAZINE公式Discordサーバーに設置しました。誰でも自由に書き込めるので、どしどしコメントしてください!Discordアカウントを持っていない場合は、アカウント作成手順解説記事を参考にアカウントを作成してみてください!

• Discord | "AIモデルリリース系ニュースの自分流の着目点を教えて!「自分のPCで動くか」「どれくらいの性能か」「開発元はどこか」とか何が重要?" | GIGAZINE(ギガジン)
https://discord.com/channels/1037961069903216680/1219572135463354399

この記事のタイトルとURLをコピーする

・関連記事
Googleが超高品質な動画生成AI「Lumiere」を発表、フレーム同士のつながりが自然で「テキストや画像から動画生成」「写真の一部を動画化」「動画の一部分を指定して加工」などなど機能てんこもり - GIGAZINE

Googleが従業員のコード作成能力を強化するAI「Goose」を導入し業務を効率化 - GIGAZINE

文字・音楽・画像を同時に処理する「マルチモーダルAI」の性能がよく分かるGoogleの「Gemini」ハウツー動画11種を解説 - GIGAZINE

マルチモーダルAI「Gemini」の性能をアピールするGoogleの公式ムービーはフェイクだったという指摘 - GIGAZINE

テキストから物理法則をシミュレートしながら動画を生成するAI「Sora」をOpenAIが発表 - GIGAZINE

テキストや画像から動画を生成するAI「Stable Video Diffusion」をStability AIが公開へ - GIGAZINE

YouTubeが「リアルなAI生成コンテンツ」にラベル付けするためのツールを展開して生成AI使用の開示を動画クリエイターに要求 - GIGAZINE

in ソフトウェア,   動画, Posted by log1h_ik

You can read the machine translated English article Google announces AI 'VLOGGER' that gener….