2025年12月17日 07時00分ソフトウェア

Appleが1枚の画像を3Dシーンに変換できる手法「SHARP」を発表、標準的なGPUで1秒未満で処理可能

Appleが、たった1枚の画像から高精度な3Dシーンを生成する手法「SHARP」を発表しました。SHARPはニューラルネットワークを利用し、標準的なGPUでも1秒未満で実行可能とのことです。

[2512.10685] Sharp Monocular View Synthesis in Less Than a Second
https://arxiv.org/abs/2512.10685

SHARP
https://apple.github.io/ml-sharp/

GitHub - apple/ml-sharp: Sharp Monocular View Synthesis in Less Than a Second
https://github.com/apple/ml-sharp

SHARPは1枚の画像を与えられると、描写されたシーンの3Dガウス表現のパラメータを返します。これはニューラルネットワークを介した単一のフィードフォワードパスを介して行われ、標準的なGPUでも1秒未満で実行できるとのこと。

SHARPによって出力された3Dガウス表現は、出力フォルダに3D Gaussian Splatting(3DGS)として保存されます。3DGSは画像や映像から特徴を抽出し、点群(ポイントクラウド)と呼ばれる点の集まりを作り、それぞれの点について周囲の色情報をガウス関数で平均化します。そして3D空間上に色を配置していくことで、非常にリアルな3D空間を構築することが可能です。

上がSHARPに入力した画像、下がSHARPが生成した3Dシーンを動かして、別の角度から見てみたものです。元の画像とは違う角度になっても、細部が精細に表現されているのがわかります。

別の画像を入力し、3Dシーンを生成したものがこれ。Appleの研究チームは、SHARPは従来のモデルと比較して、画像評価ベンチマークのLPIPSのスコアが25～34％、DISTSのスコアが21～43％改善されたと報告しています。

なお、今回発表されたSHARPとの関係は不明ですが、Appleはすでに3Dシーン生成技術を「空間シーン」という名前で製品化しています。空間シーンは2025年9月にリリースされたiOS 26から利用可能になっており、Appleデバイスに搭載されているAI専用プロセッサのNeural Engineを利用し、2Dの画像から立体的な画像(空間シーン)を生成できます。

実際に2D写真から空間シーンを生成した様子は、以下の動画で確認できます。

iOS 26の「空間シーン」機能を使って写真を立体的にしてみた - YouTube