動画

人間のボディランゲージを読み取って「非言語コミュニケーション」をコンピューターに理解させる研究が進行中


人間がコミュニケーションを行う際には、口から発された言葉による情報と同じぐらい手ぶりや顔の表情、体の動きなどの「ボディーランゲージ」からの情報を読み取っています。人間であれば自然に学習して読み取れるようになる「非言語コミュニケーション能力」ですが、コンピューターにも同じ能力を身に付けさせるための研究が進められています。

Cracking the elaborate code - The Verge
http://www.theverge.com/2016/12/7/13857144/social-vr-carnegie-mellon-panoptic-studio-facebook-oculus-toybox

この研究を行っているのは、カーネギー・メロン大学の研究チームです。研究室を訪れて特殊な機材を取材したThe Vergeのムービーが公開されています。

Cracking the code of body language to build lifelike robots - YouTube


研究施設内に設置された球状の特殊な構造物。これが人間の動きを3Dで読み取る「Panoptic Studio」("パノラマ的なスタジオ")です。


その内部の様子はこんな感じ。サッカーボールのように、五角形と六角形のパネルで構成された球状体になっており、各パネルには大小の黒い点があるのがわかります。


これらの点は、大小のカメラが設置されている場所。パネル1枚あたりに24個の小型VGAカメラと1台のHDカメラが内蔵されており、組み立てたときにカメラが可能な限り均等に配置されるように設計されています。スタジオ全体で使われているカメラはVGAカメラが480台、HDカメラが30台で、さらに物体との距離を測ることができる「Kinectセンサー」が配置されています。


スタジオの中でダンスするThe Vergeの記者。この動きをカメラとセンサーが読み取って……


510本の映像とセンサーの情報を読み込ませ、処理を行うと……


体の動きを3Dでキャプチャしたデータが生成されました。ムービーを見れば一目瞭然ですが、無数にあるカラフルな線は体の動いた方向を現しており、線の長さは動きの速さを示しています。この画面では、ダンスしている記者とそれを撮影しているカメラマンの2体がキャプチャされている模様。


各カメラからの映像は、1分あたり600GBにも達するとのこと。


これまでにキャプチャしたデータの総量は1ペタバイトにも達しているそうです。


これまでにも人間の動きを3Dキャプチャする技術としては、映画の世界などで用いられている「モーションキャプチャ」がよく知られています。


映画「ロード・オブ・ザ・リング」に登場する「ゴラム(スメアゴル)」も、実際の人間が演じた動きを、顔の表情も含めてモーションキャプチャして再現したもの。


しかし、モーションキャプチャは複数のボールを付けた特殊なスーツを着用する必要があるため、現実の世界では使い物になりません。


Panoptic Studioの優れた点は、特殊な衣装を着用していなくても、体の動きを詳細にキャプチャしてデータ化できるところにあります。複数の人間が会話している様子をキャプチャすると……


3人の体の動きが3Dデータ化されました。


複数の人物がいても、大きな問題なくデータ化できている模様。


人間が誰かとコミュニケーションするとき、貧乏ゆすりをしたり、手を動かしたり、目線を配ったりと、さまざまな動きをしており、それらが感情や雰囲気を示すサインの1つになっています。


そのような動きをキャプチャし、データ化することでコンピューターにもボディランゲージを理解させるのがPanoptic Studioの目的、と語る研究助手のHanbyul Joo氏。


こうして得られたデータから表情を読み取れるようにするのはもちろん、最先端コンピューター技術である人工知能(AI)のディープラーニングです。


まずは実際の人がどのような反応を示すのかをAIに教え込ませることにより、徐々にAIが自分で判断を行えるように学習させます。これは、Googleなどが研究を進めている自動運転技術でAIに運転を覚えさせているのと同じこと。


今やコンピューターは、話している人間の口の動きだけを読み取ることで、話している内容を推測する「読唇術」を身に付けるに至っています。


そしてさらに、コンピューターは人間の体の動きを読み取って、言葉以外からの情報を認識できるようになろうとしているわけです。


この技術はこの先、ロボットが人々の暮らしの中に入ってくる時に大きく活かされることになりそう。


介護などの福祉の現場や、それ以外の生活にロボットが入るとき、人間同士のコミュニケーションと同じことをロボットができるようになることは非常に重要なことになります。


この先、人間と同じようにロボットが「体」を使ったコミュニケーションを行う日が訪れるのかもしれません。

この記事のタイトルとURLをコピーする

・関連記事
人工知能を100年間研究し続ける大学が予想した人工知能と生活する2030年の姿とは? - GIGAZINE

ディープラーニングで人間と同じトーン・スピード・抑揚を再現して自然な音声を出力する「WaveNet」をDeepMindが開発 - GIGAZINE

人工知能・機械学習・IoTがいかにソフトウェア開発のカギとなってくるのかが分かるグラフが公開中 - GIGAZINE

Appleが初めて明かすディープラーニングによる人工知能開発秘話 - GIGAZINE

in 生き物,   動画, Posted by darkhorse_log

You can read the machine translated English article here.