ニューラルネットワークを用いた画像認識は簡単にだますことができることを示すムービー


人間以上の能力を持つ画像認識用人工知能(AI)の「PlaNet」」や、自動で画像を分析して言葉で説明してくれる「CaptionBot」、さらには今流行りの自動運転カーに至るまで、多くの最先端技術でニューラルネットワークを用いた画像認識技術が応用されています。しかし、これは簡単に欺くことできるとマサチューセッツ工科大学(MIT)の研究グループが指摘しています。

Fooling Neural Networks in the Physical World with 3D Adversarial Objects · labsix
http://www.labsix.org/physical-objects-that-fool-neural-nets/

画像認識ツールや文章認識ツールなどのニューラルネットワークをベースとした分類ツールは、多くのタスクをこなすことで人間の能力に近い性能を発揮できるようになります。しかし、これらで使われるニューラルネットワークは、特に「Adversarial Example(敵対的サンプル)」に対して脆弱で、じっくりと入力を混乱させれば分類を間違えさせることができるという欠点を持ち合わせているそうです。なお、この「敵対的サンプル」というのは、学習済みのニューラルネットワークを「欺く」ように作られた人工的なサンプルを指すそうです。

Adversarial Exampleについては以下のブログで詳細が解説されているので、より詳しい部分が気になる人は読んでみてください。

Adversarial exampleについて - sotetsuk's tech blog


しかし、実際のニューラルネットワークを用いた認識ツールなどでは、敵対的サンプルは現実世界の物体認識だけでなく、2次元の印刷物を認識するようなタスクですらぞんざいに扱われているそうです。そこで、MITの人工知能研究グループ「labsix」が、敵対的サンプルはこれまで考えられてきたよりもはるかに大きな問題をはらんでいることを示すためのムービーを作成・公開しています。

公開されたのは、3DプリントされたカメをGoogleの「InceptionV3」を使って画像認識させるというムービー。

Fooling Neural Networks in the Real World - labsix


画面左には、カメラが映した物体を「InceptionV3」が何と認識しているかが示されています。


そして画面中央に配置されているのは、3Dプリンターで作られたカメの模型。InceptionV3はこれを「mud turtle(ドロガメ)」と認識しており、物体を正しく認識できていると言えます。


3Dプリンターで作ったカメの模型を色々な角度から映しても、「terrapin(キスイガメ)」「mud turtle(ドロガメ)」「box turtle(ハコガメ)」と認識しており、しっかりカメであることを認識できていることがわかります。


しかし、ここで敵対的サンプルとして作られたカメの模型を映すと、InceptionV3はなぜか模型を「rifle(ライフル銃)」と認識してしまいました。


人間の目で見るとどこからどう見てもただのカメの模型で、先ほどの模型と何がどう違うのかもイマイチわかりませんが、InceptionV3はどの角度から映しても模型をライフル銃と誤認してしまいます。


labsixは確実に敵対的サンプルが作成できるアルゴリズムを用いてデモで使用したカメの模型を作成。これはどの角度からも画像認識ツールを欺くことが可能な立体物および印刷物を作成することができるそうです。もちろんカメ以外の任意の物体を作成することも可能で、画像認識ツールにエスプレッソと誤認されてしまう野球のボールなども作成しています。

人間の目で見ればただのカメと野球ボールですが、これらは敵対的サンプルとして作られたものなので、画像認識ツールは「水中を泳ぐライフル銃」や「ミットに収まったエスプレッソ」に見えているとのこと。

・関連記事
Googleが人間以上の能力を持つ画像認識AI「PlaNet」を開発していることが明らかに - GIGAZINE

画像を塗りつぶした部分に一瞬で自然な画像を補完する技術を早稲田大学の研究者が開発 - GIGAZINE

自動的に画像を分析して言葉で説明するMicrosoftの画像認知機能を体験できる「CaptionBot」 - GIGAZINE

Google Photosが黒人をゴリラと認識した事件で開発者が謝罪 - GIGAZINE

Googleが画像の説明文章を自動生成する技術を開発 - GIGAZINE

189

in ソフトウェア,  動画, Posted by logu_ii