レビュー

画像をアップすると自動で説明文を生成してくれる「Images to Text」

By Michele Cannone

画像を認識して位置決めや種別・計測・検査を行うようなシステムのことを「マシンビジョン」と呼び、これは読んで字のごとく「機械の目」となるようなシステムを指します。そんなマシンビジョンの核となるのが「画像認識アルゴリズム」で、現在の技術では既に高度な画像認識アルゴリズムの開発に成功しています。Googleでは、これを応用して画像を読み込み自動で説明文章を生成可能なシステムの開発に成功しており、このシステムを誰でも気軽に使用することができるデモページ「Images to Text」まで登場しました。

Images to Text - Toronto Deep Learning
http://deeplearning.cs.toronto.edu/i2t


説明文を自動生成したい場合は、「画像URLを入力」もしくは「ローカルからファイルをアップロード」する必要があります。そんなわけでまずはネット上から使用する画像を適当に選び、その画像URLを貼り付けて「Generate Text!」をクリック。


まずはこの「iPhone 6を手で持っている画像」からテキストを作成。


「Generate Text!」をクリックしてからテキストが表示されるまでは5~10秒程かかります。テキストが表示されると赤枠部分に使用した画像、「TAGS」の下に画像の中からシステムが読み取った要素、そして要素を組み合わせた最も優れた予測説明文として「Nearest Neighbor Sentence:」が出力され、「Top-5 Generated:」の下にはその他の説明文の候補として5つのテキストが生成されています。今回の場合は、「TAGS」として「phones」「mobiles」「iphone」「smartphones」「palm」が表示されており、手に持っているのがiPhoneであることを見事的中させています。

画像をPCからアップロードする場合は、「参照」をクリックしてからアップロードしたい画像を指定して「Generate Text!」をクリックすればOK。


アップロードしたのは「戦車に乗る軍人たち」を写した画像ですが、生成されたテキストは「兵士たちがライフルの射撃方法を訓練しているところ」でした。正しい説明文ではないものの、なぜこんなテキストが出力されたのかは何となく分かる結果。


「Example Images:」の下にはサンプル画像が列挙されています。試しに電気コンロの上に置かれたピザの画像をクリックしてみると……


「コンロの上に2枚のピザが置かれており、一方はマッシュルーム、もう一方はバジルのピザ」とほぼ完璧な文章が生成されました。


小さな女の子が遊具で遊んでいる写真は、「黒髪の少女がぶらさがった丸太に乗ってぶらんこ遊びをしている」と及第点の説明。その他の説明文には「少女がポールに触ろうとしている」「女の子がポールを飛び越えている」など割と間違っていません。


ネコが並んでいる画像では「1匹の茶色い犬が他の動物たちを見ている」と生成されました。人間にも「イヌ派」「ネコ派」がありますが、画像認識システムはイヌ派にバイアスがかかっているのかも。


大きなマグロのオモチャを手に取っている画像の説明文は「キーボードとマウスを操作する両手」と、なに1つ正解していないこともあります。


スティーブ・ジョブズの画像では、「笑顔の男性が写真を持っている」となっており、左側のテキストは読み込んでいない模様。Googleの画像検索では人物まで特定できることもあるため、Images to Textは異なる認識システムを採用しているようです。


このシステムはDeep Learning(深層学習)と呼ばれる技術が使用されており、Googleとトロント大学が共同で研究・開発しています。この深層学習システムが手軽に体験できるアプリもリリースされています。

Deep Learning on the App Store on iTunes
https://itunes.apple.com/us/app/deep-learning/id909131914

Deep Learning - Google Play の Android アプリ
https://play.google.com/store/apps/details?id=utoronto.deeplearning

今回はiOS版をインストールして使ってみます。「入手」ボタンをタップしていくと無料でゲット可能。


アプリを起動すると、カメラへのアクセスを求められるので「OK」をタップ。


カメラが起動するので、認識させたい写真を撮影します。


すると説明文ではありませんが、以下のように画像から判別した単語の数が表示される、というわけです。


この技術が発展すれば、物にカメラを向けるだけでブログが書けるようになるのかも……。

この記事のタイトルとURLをコピーする

・関連記事
Googleが画像の説明文章を自動生成する技術を開発 - GIGAZINE

ターミネーターのような高度な画像認識が機械で可能になるのか? - GIGAZINE

画像の中からご飯だけを自動認識してカレーをぶっかける「カレーよそいプログラム」 - GIGAZINE

ジェスチャーでモニター上にスイッチが出現、動きを認識して照明操作できる画像認識LSIのデモムービー - GIGAZINE

精巧な顔認識システムを作成するため、ネット上では大量の画像が収集されている模様 - GIGAZINE

顔の自動認識機能を使って雲の中に発見した「顔」を集める「Cloud Face」 - GIGAZINE

in レビュー,   ネットサービス, Posted by darkhorse_log

You can read the machine translated English article here.