ソフトウェア

ニューラルネットワークにモノクロ映像のカラー化を学習させることでオブジェクトのトラッキングを実現


映像の中で登場するオブジェクトをトラッキングすることは、コンピュータービジョンにとって重要かつ基礎的な問題です。しかし、視覚的に「オブジェクトをトラッキングするように」と人工知能(AI)に教えることは、学習のための大量のラベル付きデータセットなどを必要とするため、実用的ではありません。そんな中、研究者グループがラベル付きデータセットがなくても正確に映像内のオブジェクトをトラッキングできる手法を発表しています。

Google AI Blog: Self-Supervised Tracking via Video Colorization
https://ai.googleblog.com/2018/06/self-supervised-tracking-via-video.html

Carl Vondrick氏らが開発したのが「モノクロ映像のカラー化」を用いてオブジェクトをトラッキングするという手法です。この手法ではモノクロの映像をカラー化するために畳み込みニューラルネットワークを用いるのですが、単一の参照フレーム(映像の最初のフレーム)からカラーをコピーするように制限します。すると、ネットワークは教師なし学習で映像中のオブジェクトを視覚的に追跡する方法を自動で学ぶそうです。重要な点は「トラッキングのための訓練が必要ない」という点で、さらに、学習用のラベル付きデータセットを必要とせず、複数のオブジェクトをトラッキングすることも可能です。

実際にこの手法を用いてモノクロ映像内のオブジェクトをニューラルネットワークがトラッキングしていることがわかるのが、以下の画像。画像内の色つけされた物体をニューラルネットワークは認識しており、ひとつの物体につき1色で色づけがされているため、異なる色のものは「別のオブジェクト」とニューラルネットワークが認識していることを示しています。道着で組み手を行う2人組みのような、複数人が入り乱れるシーンでもニューラルネットワークは正確にオブジェクトを認識しています。


Vondrick氏は「映像のカラー化を用いてオブジェクトをトラッキングしようと考えた理由」について、「色が時間的な一貫性を持っているから」と語っています。これは色が時間の経過と共に変化するものではない、という当たり前の事実をベースに考えられたことを意味しており、「映像から色を除外し、同じ色のオブジェクトが複数存在するケースを考え色分けのステップを追加し、そして色分けすることで『特定のオブジェクトや領域をトラッキングするように』と(ニューラルネットワークに)教えることができます」と、学習モデルについて説明しています。

Vondrick氏はニューラルネットワークを学習させるに際してKineticsデータセットを利用しています。映像における最初のフレーム以外をすべてモノクロに変換し、「次のフレームの元の色」を予測するために畳み込みニューラルネットワークを訓練します。元の色を正確に復元するために、ニューラルネットワークが領域をトラッキングできるようになることに期待して行った学習だったそうです。

以下の左にある「Reference Frame」が色の参考となる「映像における最初のフレーム」で、これはモノクロに変換されません。左の動画はモノクロに変換した映像で、「映像における最初のフレーム」の色を参考にしてオブジェクトの色つけが行われます。


この精度が上がっていくことで、以下のようになります。以下の左端の画像がモノクロ変換されなかった「映像における最初のフレーム」であり、このフレームを参照してニューラルネットワークがモノクロ映像を色つけしていきます。そして真ん中の画像は、モノクロ変換された入力データ。右の画像は、モノクロ映像にAIが色つけしたものです。右の画像を見ると腹筋する女性の様子はとても自然で、まるでモノクロ変換される前の映像を見ているようですが、これに色をつけたのはVondrick氏らの研究グループが作成したニューラルネットワークです。


また、ニューラルネットワークは最初のフレームで特定の人間を「キーポイント」で指定してポーズをトラッキングすることもできます。実際にモノクロ映像に映る人間のポージングをニューラルネットワークがトラッキングしていることを示すのが以下の画像。赤色の線は「ニューラルネットワークが認識しているポーズ」を示しています。



Googleが開発した「映像のカラー化を用いたオブジェクトのトラッキング」は、高度な教師あり学習を用いて作成されたモデルよりも高精度な結果を出せるというわけではないそうですが、オプティカルフローに基づく最新の手法よりも正確にオブジェクトのトラッキングが可能になるとのことです。

この記事のタイトルとURLをコピーする

・関連記事
Google I/Oで示された「GoogleのAI活用」まとめ、AIは日常生活の問題をどれだけ解決しているのか? - GIGAZINE

Googleは患者がいつ死ぬかをAIを用いて正確に予測できる - GIGAZINE

GoogleのAIを軍事活用する極秘計画「Project Maven」の関係者による生々しい内部メールが流出 - GIGAZINE

AppleがGoogleの人工知能(AI)開発チーフをスカウト、Siriのアップグレードにも大きく影響する可能性 - GIGAZINE

Googleは「電話で人間と自然に会話をしてタスクを完了するAI」を開発している - GIGAZINE

in ソフトウェア, Posted by logu_ii

You can read the machine translated English article here.