Googleが人間以上の能力を持つ画像認識AI「PlaNet」を開発していることが明らかに

By CHRISTOPHER DOMBRES

Googleは画像の説明文章を自動生成する技術を開発したりと、機械学習やディープラーニングなどを用いて、人間レベルの高度な認識能力を持つコンピューターや人工知能の開発に取り組んできました。そんな中、人間を超える精度で「写真の『映像情報』のみで撮影場所を特定する」ことが可能な人工知能の開発にも成功していることが明らかになっています。

Google Unveils Neural Network with “Superhuman” Ability to Determine the Location of Almost Any Image
https://www.technologyreview.com/s/600889/google-unveils-neural-network-with-superhuman-ability-to-determine-the-location-of-almost/


ウェブ上からランダムに写真をピックアップして、その写真に写っている情報から、どこで撮影されたものかを特定することは難しいことのように思えます。しかし、もしも写真にエッフェル塔のような有名な建物や景色が写っているなら、撮影場所を特定するのは比較的簡単です。実際、写真に写った風景などから撮影場所を特定するテクニックには以下のようなものがあり、名所などでなくとも撮影場所を特定する方法はあります。

TwitterやInstagramにアップされた写真から撮影場所を特定する方法 - GIGAZINE


しかし、特定の位置を示す手がかりが写り込んでいなかったり、屋内で撮影された写真だったり、ペットや食べ物などの細部を写した写真であったりする場合、撮影場所を特定するのは非常に困難になります。それでも、人間は驚くほどこのタスクが上手な生き物であるそうで、文字や植物の種類、建築様式、交通の流れなど、あらゆる情報から撮影場所の特定が可能とのこと。

しかし、コンピューターがあらゆる画像を認識できるようになるための研究を行っているGoogleのトビアス・ウェイアンド氏とその同僚が発表した論文によると、彼らは画像のピクセル情報だけで写真の撮影場所を「人間を超える精度で」行えるAIの開発に成功したようです。ウェイアンド氏は「コンピュータビジョン」の専門家で、ディープラーニングを用いることで、コンピューターが「写真の『映像情報』のみで撮影場所を特定する」ことができるように、1億2600万枚以上の写真データに含まれるExif情報や画像のメタデータを含むデータセットを用意し、これをニューラルネットワークに学習させたとのこと。これにより、AIは人間よりもはるかに正確に写真の撮影地点を推測可能となり、屋内の写真やペットや食べ物などの、一見位置情報が含まれていないように見える写真の撮影場所を特定することも可能になった模様。

By Kate Ter Haar

この方法は、少なくとも機械学習の世界では非常に単純なものだそうで、その方法というのは「世界地図に線を引いて写真の撮影場所をひとつのマス目にする」という方法。まずはウェブ上から大量の「位置情報を含む写真」を集め、これをデータベースとします。次に、位置情報付きの写真を用いて、各地域ごとのにマス目を設けていきます。マス目はデータベースの写真1枚につき1つ設置され、海や北極・南極には加えないかわりに、多くの写真が撮影される都会では小さなマス目が、あまり写真を撮る人がいない田舎では大きなマス目を用いることになっています。


そうして完成したのが、「PlaNet」と呼ばれるAI。このPlaNetの正確性を測るため、研究チームは230万枚の位置情報付の画像をFlickrから集めてきて、PlaNetにどこで撮影したものかを推測させたそうです。この結果についてウェイアンド氏は「PlaNetの正確さは通りレベルだと3.6%、都市レベルなら10.1%ほど」とコメント。さらに、国レベルでなら28.4%、大陸レベルでは48%の確率で撮影地点を当てることが可能とのことで、これはかなりの精度であるとマサチューセッツ工科大学のMIT Technology Review

ウェイアンド氏ら研究チームはPlaNetの能力をさらに試すべく、10人のよく旅行に出かける人々とその能力を比較する実験を行いました。テストでは、ユーザーにGoogleストリートビューからランダムで選ばれた写真を見せ、これがどこの風景のものなのかをマップ上で示してもらうという「GeoGuessr」を使用。テストの結果は、PlaNetが10人の旅行愛好家を圧倒する結果で終わりました。ウェイアンド氏によれば「PlaNetは50回中28回も勝負に勝ち、プレイごとの平均誤差距離は1131.7km。対して、人間側の被験者の平均誤差距離は2320.75kmでした」とのことで、PlaNetの能力が人間の域を超えているのは明らかだったそうです。

なお、PlaNetも挑戦した「GeoGuessr」は以下から誰でも無料で挑戦できます。Googleストリートビューからランダムで選ばれた写真を見て、それがどこの風景かをマップ上で示すだけの単純なクイズサービスですが、チャレンジしてみるとPlaNetの成績がいかにスゴイものか体感できます。

GeoGuessr - Let's explore the world!


さらに興味深いのは、PlaNetは人間のように写真に写る植物や建築様式から撮影場所のヒントを得ているわけではない、というところ。また、ウェイアンド氏は「我々はPlaNetが人間に対してアドバンテージを持っていると思う。なぜなら、PlaNetはよく旅行に行く人でも見たことのないような場所の写真も覚えられるから」とコメントしてPlaNetが勝利するのは当たり前といった感想を残しています。加えて、位置情報の特定に繋がるような情報を含んでいない写真でも、PlaNetならばその写真が含まれるアルバムから撮影場所を特定することもできるようになるかもしれません。

さらに興味深いのは、このPlaNetがごくごく小さなデータで実現可能という点。ウェイアンド氏は「我々のモデル(PlaNet)はわずか377MBで、これならスマートフォンにも問題なく積める」としており、スマートフォン上に強力なニューラルネットワーク技術を用いた機能が登場するのも時間の問題なのかもしれません。

・関連記事
画像から年齢を推測してくれるMicrosoft公式の機械学習サイト「How Old Do I Look?」 - GIGAZINE

「Google翻訳」がスマホをかざすだけで文字を自動認識して翻訳する仕組みとは? - GIGAZINE

Googleが画像の説明文章を自動生成する技術を開発 - GIGAZINE

ターミネーターのような高度な画像認識が機械で可能になるのか? - GIGAZINE

画像の中からご飯だけを自動認識してカレーをぶっかける「カレーよそいプログラム」 - GIGAZINE

174

in サイエンス, Posted by logu_ii