2014年09月20日 07時00分サイエンス

ターミネーターのような高度な画像認識が機械で可能になるのか？

人の目の代わりに画像を認識し、位置決めや種別、計測、検査を行うようなシステムのことをマシンビジョンと言い、これは読んで字のごとく「機械の目」となるシステムです。現在のマシンビジョンは人間と同じレベルの物体認識が可能となっているとのことで、このシステムを支える高度な画像認識アルゴリズムの知られざる進化の歴史を、マサチューセッツ工科大学が保有するメディア会社が刊行している科学技術雑誌テクノロジー・レビューが明かしています。

The Revolutionary Technique That Quietly Changed Machine Vision Forever | MIT Technology Review
http://www.technologyreview.com/view/530561/the-revolutionary-technique-that-quietly-changed-machine-vision-forever/

Google Lunar X Prizeは、Xプライズ財団が運営し、Googleがスポンサーとなって開催している「民間による最初の月面無人探査」を競うコンペティションです。他にも、「疾病を診断するための装置開発」を競うQualcomm Tricorder XPRIZEや「魅力的なスピーチが可能な人工知能の開発」を競うA.I. XPRIZE presented by TEDなど、機械の進歩を進めるためのコンペティションが世界中にはたくさん存在します。

ImageNetのLarge Scale Visual Recognition Competition(ILSVRC)もそんなコンペティションのひとつで、これはより優れた画像認識アルゴリズムの開発を目指すものです。このコンペティションは、参加者が作成した画像認識アルゴリズムに「提示された画像の中に指定されたオブジェクトが含まれているかどうか」を判断させ、「発見したオブジェクトの周りを枠線で囲む」ことでアルゴリズムの精巧さを競うというもの。画像認識させる「モノ」は、そろばんからズッキーニまで1000種類以上のものが用意されており、これらを100万以上ある画像データの中からひとつひとつ認識させ、正解率を競います。

このような「物体の実像を判断する」という行為は、人間にとっては造作もないことですが、コンピューターにとっては非常に難しいことでした。しかし、2012年に行われたILSVRCにて、カナダにあるトロント大学の研究チームが披露した「SuperVision」と呼ばれる画像認識アルゴリズムにより、この画像認識技術には大きなブレイクスルーが起き、現在のマシンビジョンの精度は飛躍的に向上することとなっています。

By terrykimura

2012年のILSVRCで登場したSuperVisionは、「深層畳み込みニューラルネットワーク」と呼ばれる技術を使用していました。

深層畳み込みニューラルネットワークを採用したアルゴリズムがコンペティションで優勝したのは、このSuperVisionが世界初であり、その成績は他を寄せ付けませんでした。2010年にILSVRCで優勝した画像認識アルゴリズムの正解率は71.8％、2011年度の優勝アルゴリズムは74.2％でした。しかし、SuperVisionはなんと正解率83.6％で2012年に優勝し、その際SuperVisionの次に良い成績を残した画像認識アルゴリズムの正解率は73.8％と約10％もの大差をつけての勝利だったのです。この圧倒的勝利により、SuperVisionの採用した「深層畳み込みニューラルネットワーク」を使用するアプローチが画像認識界で一気に広まります。

畳み込みニューラルネットワークは、それぞれ細かく分類された画像の集まりから成る層を複数作ることで構成されています。さまざまなイメージを認識できるようにするために各層の画像はすべて部分的に一致しており、システムが適切に画像を認識できるようになるまで、繰り返しそれらを処理させて学習させる、とのこと。

そもそも最初に深層畳み込みニューラルネットワークが考案されたのは1980年代のことでしたが、このレベルの高度な画像認識が可能になったのはここ2、3年のことです。例えばSuperVisionは65万個のニューロンから成っており、さらにこのニューロンが5つの層を形成しています。また、SuperVisionは約6000万個のパラメーターを持っており、プロセスを機械学習する内にそれぞれのパラメーターは微調整されていき、物体の詳細が認識可能になっていくそうです。この物体を認識するためのパラメーターが飛び抜けて多かったため、それまでよりも詳細な画像認識が可能になった、とのこと。

SuperVisionが登場した2012年以降、いくつかの研究グループにより画像認識の精度は向上してきており、2014年にはGoogLeNetと呼ばれるGoogleのエンジニアによって作られた画像認識アルゴリズムが、93.3％という脅威の正解率をたたき出しています。

スタンフォード大学のOlga Russakovsky氏によると、画像認識アルゴリズムにおいて重要なもののひとつは「高品質なデータセット」とのこと。データセット内のすべての画像が各イメージの代表的な存在として画像認識時に役立つ必要があり、学習用の画像データもまたそれらをサポートできるべきです。高品質なデータセットを作成するため、Russakovsky氏はAmazon Mechanical Turkを使って実際の人間に画像のカテゴリー分けを依頼する、という方法を試しており、その結果高精度な認識が可能になる画像データベースの作成に成功したとのことです。

人間の目とマシンビジョンを比較して、Russakovsky氏は「我々の研究結果によると、教育された人間は、現在最高の画像認識精度を持つGoogLeNetよりも優れた正解率をたたき出す」と語ります。しかし、もはや画像認識というタスクにおいても人間の方が圧倒的に優れたパフォーマンスを示すというわけではないとのことで、例えば犬を犬種ごとに分類するなどの精度は、人間よりも機械の方が優れているそうです。

なお、現在GoogLeNetの画像認識アルゴリズムは「小さい」もしくは「薄い」、のような高度な違いを認識するための研究や、現代にありがちなフィルターなどで加工された写真の認識にも取り組んでいるそうです。

映画ターミネーターに登場するT-800は、2029年から送られてきた未来のアンドロイドですが、あと15年でT-800に匹敵するマシンビジョンの実現は可能なのか、期待が高まるところです。

Vision Terminator - YouTube