ソフトウェア

写真の情報を認識して音声でどんな写真か説明する人工知能をFacebookが発表


Facebookに写真をアップロードすると、自動的に顔を認識して該当する人物のタグ付けを提案されることがあります。これはFacebookのディープラーニングシステムによる機能の1つですが、Facebookの人工知能開発チームであるFacebook AI Research(FAIR)が、写真に含まれる物体を検出して「赤ちゃんがバスルームで歯を磨いてもらっている」など写真内の情報をText to Speechで読み上げたり、写真について質問すると回答できるなどの機能を持つ最新の人工知能を発表しました。

New Milestones in Artificial Intelligence Research | Facebook Newsroom
http://newsroom.fb.com/news/2015/11/new-milestones-in-artificial-intelligence-research/

人工知能を用いた写真判別システムの正式な発表は、2015年12月に開催される人工知能のカンファレンス「NIPS」で行われる予定。現時点で公開されている情報によると、FAIRの人工知能の機械学習に必要な訓練データは従来の10分の1で済むにも関わらず、写真の識別処理の速度はこれまでより30%もアップするとのこと。


さらにMemNetsと写真識別技術を組み合わせた「visual Q&A(VQA)」という、人工知能が識別した写真の情報に関する質問に回答できるシステムが構築されており、以下のムービーから実際に人工知能が質問に回答するデモを見ることができます。

Visual Question and Answering Demo - Facebook Engineering

Visual Question and Answering Demo

Earlier this year, we showed some of our work on natural language understanding — specifically, a system called Memory Networks (MemNets) that can read and then answer questions about short texts. In this demo of a new system we call VQA, or visual Q&A, MemNets are combined with our image recognition technology, making it possible for people to ask the machine what's in a photo.

Posted by Facebook Engineering on 2015年11月3日


スマートフォンに赤ちゃんの写真が表示されており、音声入力で「写真に赤ちゃんが写っていますか?」と質問すると、人工知能が「はい」と回答しました。


「赤ちゃんはどこにいますか?」と尋ねると、「バスルームです」と答え、写真内の情報を識別できているのがわかります。


「赤ちゃんは何をしていますか?」という質問には、「歯を磨いています」と答えており、写真が撮影された時のシチュエーションまで理解しているわけです。


人工知能システムは予測学習機能を持っており、視覚的に得た情報を観察・学習することで「将来的にどうなるのか」ということを理解することができます。また、FAIRは人工知能システムに計画する能力を学習させるために、囲碁を指す別のAIボットを開発。数カ月にわたって2つのシステムを競わせたところ、人工知能システムは公開されている別のゲームAIと同レベルまで成長し、人間の名人クラスの能力を得たとのこと。その結果、人工知能システムは従来の検索ベースのシステムと、パターンマッチングシステムを組み合わせて処理することに成功しています。

なお、この人工知能システムがFacebookでどのように機能するのか、ということは以下のムービーを見るとよく分かります。

Teaching machines to see and understand - Facebook Engineering

Teaching machines to see and understand

Facebook's AI team is working to build smart systems that can enhance people's lives. Watch this video to learn about how we're approaching AI research and the impact this work is already having.

Posted by Facebook Engineering on 2015年11月3日


小さなカメラで犬を映しています。


カメラから伸びるケーブルはノートPCにつながっており、撮影した犬の犬種が識別・表示されていました。


ベッドでスマートフォンを手にする女性は、足元に盲導犬がいることから、目が不自由な様子。


しかし、手にするスマートフォンは「昨晩の22時20分に投稿された写真。写真は野外で、雲が見え、木々が生い茂っています」など、Facebookの投稿を識別して音声で出力しています。


別の女性も人工知能システムによる「この写真には6人の子どもが写っており、その中の1人はマイクです」という音声を聞き、思わず驚きの声を漏らします。


「ジョーイが笑っています。いいね!の数は19です」と聞いた女性はにっこり。


この女性も目が不自由なのですが、「まるで頭の中で写真が見えているようです」と話しています。

この記事のタイトルとURLをコピーする

・関連記事
ゲームを自ら学んで人間以上に上達できる人工知能「DQN」が人間を脅かす日はいつくるのか? - GIGAZINE

画像をアップすると自動で説明文を生成してくれる「Images to Text」 - GIGAZINE

Siriの機械音声はどのように作られて会話を可能にしているのか? - GIGAZINE

人工知能は核兵器よりも潜在的に危険、ホーキング博士が「100年以内に人工知能は人間を超える」と警告 - GIGAZINE

Googleの自己学習する人工知能DQNを開発した「ディープマインド」の実態、何が目的なのか? - GIGAZINE

まさに悪夢、Googleの人工知能「DeepDream」でムービーを作成したらとんでもないことに - GIGAZINE

in ソフトウェア,   動画, Posted by darkhorse_log

You can read the machine translated English article here.