たった1枚の画像から「まるでカメラ自体が動いているかのように視点が動く画像」を作り上げる技術が誕生
ニューラルネットワークを活用して、たった1枚の写真からまるで撮影しているカメラが動いて視点の位置が変わったように見える画像を作り出す、「3D Ken Burnsエフェクト」という技術が開発されました。
[1909.05483] 3D Ken Burns Effect from a Single Image
https://arxiv.org/abs/1909.05483
Simon Niklaus - 3D Ken Burns Effect from a Single Image
http://sniklaus.com/papers/kenburns
開発された3D Ken Burnsエフェクトがどんなものかは以下のムービーを見ればわかります。
元の画像は、ウェディングドレス姿の女性とフラワーガールを少し離れた位置から撮影したもの。
3D Ken Burnsエフェクトを使うと、元の画像からカメラがまるで近寄っていくかのような画像が生成されます。単なる「画像の拡大」とは異なり、背景となる遠いオブジェクトはあまり拡大されない一方で、近くのオブジェクトは顕著に拡大されています。さらに、3次元空間上でカメラの高さも遷移しているように見えます。
単なるズームエフェクトである2D Ken Burnsエフェクト(左)と3D Ken Burnsエフェクト(右)を比較した画像が以下。2D Ken Burnsエフェクトは背景の滝までも拡大されてしまうため、単なる画像の拡大だとすぐわかります。一方、3D Ken Burnsエフェクトは背景の位置がほとんど変わらず、手前の岩だけが大きくなることに加えて視点の高さまで変わっているように見えるため、まるで空撮用のドローンが寄りながら撮影した映像に見えます。この3D Ken Burnsエフェクトをかけるのに必要な時間はわずか数秒で、3D Ken Burnsエフェクトを使って「カメラが近寄って行くように見えるムービー」も作成可能。
3D Ken Burnsエフェクトは、遠近法の原理を利用して前景を背景よりも大きく拡大するというもの。以下の例では、窓から見える背景はほとんど変化しませんが、前景となるソファーは大きく拡大されていることがよくわかります。
研究チームはUnreal Engine 4のマーケットプレイスで公開されている仮想3D空間32個を使って、屋内・市街地・郊外・自然の中などの撮影環境を13万4041シーン分撮影し、VGG-19・Mask R-CNN・Refinement Networkという3種類のニューラルネットワークに読み込ませ、「画像内のオブジェクトの深度」に関する学習を行わせました。
3種類のニューラルネットワークは学習の結果から、画像内の点群とそれぞれの点における深度を割り出します。3D Ken Burnsエフェクトはその深度の値から、カメラを動かしたように見える画像内のオブジェクトの拡大率を個別に計算するというわけです。また、拡大の過程でオブジェクトに亀裂が入ったりゆがんだりする場合もあったため、研究チームは状況に応じて自動適用される修正システムも開発したとのこと。
今回の論文の筆頭著者であるサイモン・ニコラウスさんはポートランド州立大学でコンピュータービジョンとディープラーニングについて専攻していました。ニコラウスさんはAdobe傘下の研究機関Adobe Researchのインターンシップ中に今回の論文について著しており、共著者のロン・メイさんとジーメイ・ヤンさんはともにAdobeの研究者。ニコラウスさんは3D Ken Burnsエフェクトのコードとデータセットの公開を検討しているとのことですが、記事作成時点ではAdobeの承認を得られてはいないそうです。
・関連記事
顔写真1枚で簡単にディープフェイク映像を作成できる無料アプリ登場、中国で大人気に - GIGAZINE
AIを駆使してPhotoshopで加工された画像を識別&元の画像に戻すことができるツールをAdobeが作成 - GIGAZINE
Adobeがゴッホやフェルメールの「絵筆のタッチ」を学習して技法を再現するAIを開発 - GIGAZINE
テキストを修正するだけでムービー中の言い間違いを簡単に修正可能な技術が開発される - GIGAZINE
落書きをリアルな風景写真にリアルタイムで変換できる驚異的なお絵かき技術「GauGAN」をNVIDIAが発表 - GIGAZINE
・関連コンテンツ