画像を塗りつぶした部分に一瞬で自然な画像を補完する技術を早稲田大学の研究者が開発
早稲田大学の研究者が、ディープネットワーク(畳み込みニューラルネットワーク)を用いた画像補完技術「Globally and Locally Consistent Image Completion」を公開しました。既存の画像補完技術とはレベルの違う精度を見せつけています。
飯塚里志 — ディープネットワークによる画像補完(SIGGRAPH 2017)
http://hi.cs.waseda.ac.jp/~iizuka/projects/completion/ja/
SIGGRAPH 2017に論文が正式に採択されました。ディープラーニングによって複雑な画像補完を行う手法です。画像中の不要な物体を消したり、人の顔を変化させたりもできます。https://t.co/iHccQXmqEh pic.twitter.com/zhmVjIajcy
— Satoshi Iizuka (@stsiizk) 2017年4月30日
上記研究発表ページで公開されているムービーを見れば、画像補完技術「Globally and Locally Consistent Image Completion(GLCIC)」の凄まじさが一発で理解できます。
Globally and Locally Consistent Image Completion
GLCICでは空白に自然な画像を補完する技術で2種類の識別ネットワークを組み合わせるところが大きな特徴です。
GLCICの性能を試すべく、画像に白色で塗りつぶして「空白」を作ってみます。この空白をニューラルネットワークを使ったGLCICが自動でもっともらしい画像を補完する、というわけです。
マウスをワンクリックすると、元の画像が表示されたように見えます。実はこれはGLCICが自動補完した画像。
元画像(左)と補完した画像(右)を並べて比べると、白色で塗りつぶした部分が微妙に違います。しかし、詳しく見比べないと補完した画像とは思えないレベルの「再現性」を持っていることが分かります。
GLCICの画像補完機能を使えば、画像内の物体を消し去ることも可能、
柵の向こうにいる男性を白色で塗りつぶして……
ワンクリック。柵は再び現れましたが、男性は消え去りました。画像補完とは信じがたい精度の補完能力です。
GLCICの画像補完機能を使えば、顔をすり替えることも可能。
目の周りを塗りつぶして……
別の目を補完するとこんな感じ。GLCICでは画像全体での整合性と局所的な整合を評価する、2種類の識別ネットワークを利用することで、自然な画像を補完することができます。
口もとを塗りつぶして……
別の口で補完。サイズや配置が最も自然に見えるように、異なる画像で補完することが可能です。
顔全体とより大きな領域を塗りつぶすと……
顔をそっくり入れ替えられます。
顔だけでなく髪型も補完できます。
頭頂部を塗りつぶすと……
なんと、分け目が変化しました。一瞬で違う画像に置き換えたとは思えないほど、自然な仕上がりです。
鼻と口を覆うように空白にすると……
違う鼻・口に変身。表情に不自然なところはありません。
目から頭にかけて塗りつぶすと……
別の顔に。GLCICを使えば、自由自在に画像を変化させられます。
GLCICは画像を補完する「補完ネットワーク」と、画像を評価する「大域識別ネットワーク」「局所識別ネットワーク」の3つのネットワークで構成されています。すべての層が畳み込みネットワークで構成される補完ネットワークが損失領域を補完した画像を出力すると、大域識別ネットワークが画像全体を局所識別ネットワークが補完領域を、それぞれ「自然であるか」評価します。評価は補完ネットワークにフィードバックされ、さらに補完の精度を高めた後に大域識別ネットワーク・局所識別ネットワークが出力を評価するという、交互学習を繰り返すことで補完ネットワークに自然画像補完を学習させています。
GLCICのすごさは、これまでに発表された画像補完技術と比較することでより一層際立ちます。左上の空白入りの画像が入力画像(元画像)で、これを2009年、2012年、2014年、2016年に考案された手法と右下のGLCICの手法を使って補完するとこんな感じ。ヘッドホンをして眠っている少年の画像は、ヘッドホンの形まで含めてGLCICがもっとも精緻に復元(正確には推測)できていることが分かります。
小屋の穴あき画像を使った場合、入り口の柱を正確に再現できたのはGLCICだけ。
湖のほとりに建つ建物の画像でも、建物や木々、空との境目を自然に再現できているのはGLCICだけです。
従来の画像補完技術とはレベルが違うと言っても過言ではないほどの高い補完性能を持つGLCICは、早稲田大学の飯塚里志助教の研究チームが開発した技術で、飯塚助教、シモセラ・エドガー助教、石川博教授による論文はSIGGRAPH 2017に採択済み。論文とGLCICのソースコードは近日公開予定です。
ちなみに本論文の共同執筆者のエドガー助教らは、鉛筆によるラフ画を自動でペン入れするソフトウェアを開発したことでも知られています。
ラフ画へ自動的にペン入れして線画にする恐るべきニューラルネットワーク技術を早稲田大学の研究室が開発 - GIGAZINE
・関連記事
ディープラーニングを用いて「写真の見た目の特徴」を別の写真に転送してしまう「Deep Photo Style Transfer」 - GIGAZINE
8×8ピクセルに縮小した画像から元の画像を予想する技術をGoogle Brainが開発 - GIGAZINE
ディープラーニングで白黒アニメをカラー化するとこうなる - GIGAZINE
職場で閲覧注意な画像を自動生成するシステムをYahooのディープラーニングで開発 - GIGAZINE
Google翻訳アプリの新機能「リアルタイム カメラ翻訳」を使いまくってみた - GIGAZINE
ディープラーニングを駆使してAIがトリックオアトリートなホラー画像を自動生成する「Nightmare Machine」 - GIGAZINE
・関連コンテンツ
in ソフトウェア, 動画, Posted by darkhorse_log
You can read the machine translated English article Waseda University researchers developed ….