2022年06月28日 19時00分ソフトウェア

複数の静止画から3Dモデルを生成する技術「NeRF」はディープフェイクを進歩させるのか？

ディープフェイクとはAIを利用して偽の人物画像・動画を作成する技術であり、有名人のフェイクポルノ動画や政治家のスピーチに見せかけたフェイク動画などが出回るなど、さまざまな分野で物議を醸しています。そんなディープフェイクが直面する課題や、その課題を克服する可能性を持っている「Neural Radiance Fields(ニューラル・ラディアンス・フィールド／NeRF)」といった技術について、AI開発企業のMetaphysic.aiがまとめています。

NeRF: An Eventual Successor for Deepfakes? - Metaphysic.ai
https://metaphysic.ai/nerf-successor-deepfakes/

近年はAI技術が飛躍的に進歩しており、2022年2月にイギリスのランカスター大学などが発表した研究では、ほとんどの人はAIが作り出した顔と本物の顔の区別が付かない上に、本物の顔よりAIが作った顔の方が信頼度が高いという結果まで報告されています。

AIの生成した顔は本物の顔と区別がつかず本物の顔より信頼性が高い - GIGAZINE

AIを用いた技術にはさまざまなものがありますが、ディープフェイクは実在の有名人や政治家をフェイク画像・フェイク動画に登場させることが可能なため、さまざまな分野で悪用が危険視されています。そんなディープフェイクに対する話題の多くは、2017年に登場した「DeepFaceLab(DFL)」「FaceSwap」という2つのオープンソースパッケージに言及しているものの、これらのプロジェクトの根幹は「deepfakes」と名乗る謎の多い開発者が2017年にGitHubで公開したコードからそれほど逸脱していないとのこと。

もちろん、DFLやFaceSwapは幅広いユーザーベースと開発者コミュニティを持っているため、トレーニングモデルにより大きな画像が使えるようになったり、障害物を自動除去する仕組みが開発されたりといった改善は行われてきました。しかし、過去3年ほどにみられたディープフェイク品質の向上は、根幹部分の刷新ではなくデータ収集やトレーニング手法の改善によるものが主となっているそうです。

記事作成時点ではディープフェイクソフトウェアのトレーニングは単一のGPUによるものが一般的で、大規模なデータをトレーニングすることが困難という問題を抱えています。このボトルネックにより、非常に短い動画を作るのにも長い時間が必要となるほか、512×512ピクセルなど比較的大きな画像をトレーニングに用いる際は、トレーニングに用いる画像枚数が制限され、モデルの最適な一般化が妨げられるといった問題が生じます。モデルの最適な一般化ができない場合、データの本質的な特徴が抽出できなかったり、元のデータに沿ったものしか作れなかったりするとのこと。

そんなディープフェイクの問題を乗り越える可能性があるとみられているのが、2020年に登場した「NeRF」という技術です。NeRFは複数の視点から撮影した画像をニューラルネットワーク内で組み合わせて、物体や環境の3Dモデルを生成するというもので、形状・質感・透明度・照明などを認識して画像の欠落した部分を合成または推定できます。

中でもNVIDIAが2022年に発表した「Instant NeRF」という技術は、わずか数枚の画像から複雑な3Dモデルを合成することが可能で、かつては数時間～数十時間かかっていたトレーニング時間をわずか数秒でトレーニングできるとのこと。実際に4枚の画像から3Dモデルを作り出す様子は、以下のムービーを見るとわかります。

NVIDIA Instant NeRF: NVIDIA Research Turns 2D Photos Into 3D Scenes in the Blink of an AI - YouTube

Instant NeRFが並外れて速いトレーニング速度を達成しているのは、「コンテンツの生成に直接影響しない情報」を破棄する能力によるものです。つまり、Instant NeRFは最終的な3Dイメージで切り捨てられる情報を最初から考慮せず、不必要な処理を極力避けることでトレーニング速度を向上させているとのこと。この仕組みはキャッシュの柔軟性と能力を向上させるため、インターフェースの応答性がよくなるという利点もあります。

また、アジアのNeRF研究コミュニティを中心に「人間の動きを任意の3Dモデルで再現する」という応用も研究されており、上海工科大学が2021年に発表した「ST-NeRF」という技術では、パフォーマーと3Dモデルのサイズ比を任意のものに変更することが可能。

duplicate clip - YouTube

中国の4つの大学が共同開発したAD-NeRFという技術では、NeRFを用いて「人物画像と発話音声のデータ」から対象人物がスピーチする動画を作り出すことに成功しています。

AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis - YouTube

さまざまな応用が期待されているNeRFですが、ディープフェイクと同様にトレーニング画像の入力サイズに実用的な制限が存在するほか、スケーラビリティの困難さといった問題も抱えています。

自動運転車の開発を行うWaymoは自動運転のシミュレーションにディープフェイクを用いており、上記の問題の解決するために低解像度のNeRFデータを複数組み合わせて高解像度の環境やオブジェクトを作り出す「Block-NeRF」という技術を開発しています。実際にBlock-NeRFで生成された道路や町並みの3Dモデルは、以下の動画で確認できます。

Block-NeRF - YouTube

Metaphysic.aiは、今後は2つのニューラルネットワークに競合させることでデータ学習の精度を高める敵対的生成ネットワーク(GAN)とNeRFの利点を組み合わせ、お互いの不足点を補い合う技術の開発が進むかもしれないと指摘。NeRFの入力画像が現実世界の写真である必要はないため、GANで生成した画像を基に3Dモデルを生成するといった応用が考えられます。すでに複数の論文でGANとNeRFを組み合わせた技術が提案されているとのことです。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2022年06月28日 19時00分00秒 in AI, 動画, ソフトウェア, サイエンス, Posted by log1h_ik

You can read the machine translated English article Will the technology 'NeRF' that generate….