たった1枚の画像から「奥行きがあり視点を前後左右に動かせる3D画像を生成する方法」が開発される



近年は立体的で奥行きがある「3D画像」を生成する技術が大きく進歩しており、新たにFacebook AI Researchとカーネギーメロン大学の研究者が、「奥行きを再現して視点を前後左右に動かすことも可能な3D画像を、たった1枚の画像から生成する方法」を発表しました。



Worldsheet: Wrapping the World in a 3D Sheet for View Synthesis from a Single Image

https://www.researchgate.net/publication/347442173_Worldsheet_Wrapping_the_World_in_a_3D_Sheet_for_View_Synthesis_from_a_Single_Image



Worldsheet: Wrapping the World in a 3D Sheet for View Synthesis from a Single Image

https://worldsheet.github.io/



以前から奥行きを感じられる画像を生成する技術はいくつか開発されており、2019年9月に「カメラが動いているかのように視点が動く画像」を生み出す技術が発表されたほか、2020年4月には「1枚の画像から複数レイヤーを含む奥行きを演出する3D画像」を生成する手法が発表されました。



そして新たに、Facebook AI Researchとカーネギーメロン大学の研究者が「Worldsheet」という手法を発表しました。この手法では、視点を従来よりも広範囲に動かせるだけでなく、3D化に伴う画像の乱れも少ない3D画像を生成できるとのこと。実際に新たな手法で生成された3D画像やその仕組みについては、以下のムービーで紹介されています。



Worldsheet: View Synthesis from a Single Image - YouTube





Worldsheetを発表したのは、Facebook AI ResearchのRonghang Hu氏とカーネギーメロン大学のDeepak Pathak氏。情報量が限られている1枚の画像から3D画像を生成する際の課題となるのが、風景の3D的な形状の把握および異なる視点におけるテクスチャマッピングです。2人はこの問題を解決するため、「平面メッシュシートを学習した深度と一致するように貼り付けることで3D的な形状を把握する」という仕組みを考案したとのこと。たとえば、以下のような1枚の画像が入力された場合……





Worldsheetは画像内の深度を学習した上で平面のメッシュシートを貼り付け、3D的な形状を把握してテクスチャマッピングを行います。





こうして生成された3D画像の中では……





視点をぐいっと動かすことが可能。





建物の壁に近寄ると、実際に左手の壁が高さを持っていることが感じられます。





仕組みを図示したのが以下。まず1枚の画像から深度(depth)情報が推測され、これに基づいて格子状のメッシュシートが貼り付けられます。これらの操作は畳み込みニューラルネットワークによって行われるとのこと。





メッシュシートの形状に対応したテクスチャがマッピングされることで、視点の位置が変わった際にも自然にテクスチャが配置される仕組みとなっています。





この手法ではニューラルネットワークを訓練する際に3D画像を必要とせず、2D画像のみを使って訓練するとのこと。訓練の初期段階ではメッシュシートが奥行きを形成しませんが……





次第に3D的な形状を把握し始めます。





そして最終的に、空間を正しく再現した3D画像を生成できるようになると研究チームは述べています。





ムービーでは従来の手法とWorldsheetが生成した3D画像の比較も行われています。2016年に開発された「Im2Im」という手法で生成された3D画像と、Worldsheet(右)が生成した3D画像を比較すると……





Im2Imで生成された3D画像はマッピングが不十分なのか、視点を動かすと画像が表示されなくなる時もあります。一方、Worldsheetの3D画像は視点が動いても変わらずに表示されています。





2020年に開発された「SynSin」(左)で生成された3D画像と比較すると、一見しただけでは違いがわかりませんが……





視点をぐぐっと奥に動かすとSynSinの3D画像が大きく乱れました。ところが、Worldsheetの3D画像はほとんど乱れないまま。





視点を左に向けて家の側面を見てみると、明らかにWorldsheetにより生成された3D画像の方がうまくテクスチャをマッピングできていることがわかります。





Im2Imとの比較に使った画像でSynSinとの比較を行うと……





やはり視点を奥まで移動させた際の乱れが、Worldsheetでは大幅に軽減されていることが確認できました。





水辺と森の境目を上空から撮影した写真では……





ズームしてカメラを回転させた際の乱れに大きな違いが見られます。





Worldsheetに列車を撮影した写真を入力して生成した3D画像がこれ。





画像の中で歩くように列車の横に並ぶことができる上に……





最初とは違った角度から列車をながめることも可能。





斜め上から撮影したケーキを横から見つめることもできます。





町中の道路を撮影した写真では……





まるでストリートビューのように道路を奥に進むことが可能。





ある程度は画像の乱れもありますが、横を向くこともできる上に……





カメラがあるはずの位置に「振り向く」こともできました。





視点を上昇させ、道を見下ろすような角度にすることも可能です。





また、写真だけでなくイラストにもWorldsheetを適用して3D画像を生成できるとのこと。





視点を地面に近づけたり……





路地を上から見下ろしたりできます。





なお、花や木のように深度の境目が不連続な物体については、うまく3D画像にできないケースがあるとのことです。