GoogleのAIは専門家よりも高精度な読唇術が可能

By Gage Skidmore

聴覚障害者が相手の唇の動きを見て会話の内容を読み取るために生まれたのが「読唇術」ですが、近年では「遠く離れた場所にいる人の会話を読み取るためのスパイ技術」として多くのフィクション作品で描かれています。実際、サッカー界では度々読唇術によるリポートが話題となっており、最近では選手が読唇術を避けるために口元を手で隠しながら会話する光景を目にすることもしばしば。また、日本でもテレビ朝日の「ゴン中山&ザキヤマのキリトルTV」などで読唇術を使ったコーナーが登場しています。そんな中、Googleの開発した人工知能(AI)が読唇術に挑戦し、人間の専門家が行うよりも高い精度での読唇精度をたたき出しています。

Google’s AI can now lip read better than humans after watching thousands of hours of TV - The Verge
http://www.theverge.com/2016/11/24/13740798/google-deepmind-ai-lip-reading-tv


GoogleのAI開発部門であるDeepMindとオックスフォード大学の研究者たちが、AIを用いて最も正確な読唇術ソフトウェアの「Watch, Listen, Attend, and Spell」を開発しました。開発ではAIのニューラルネットワークに何千時間分ものBBCのTV放送で読唇術を学習させ、実際の発言内容の46.8%を正確に読唇可能なソフトウェアに仕上がったそうです。「46.8%」という数字だけ見るとそれほど画期的なソフトウェアではないように感じるかもしれませんが、AIが読唇した映像をプロの読唇術者が同じように読唇したところ、正しく言葉を拾えたのは全体のわずか12.4%のみで、AIがいかに高精度であるかがわかります。


また、オックスフォード大学の別の研究グループは「LipNet」と呼ばれる読唇術ソフトウェアを発表しています。LipNetはテスト段階では驚異の93.4%という正解率をたたき出したソフトウェアで、同じ映像をプロの読唇術者が読唇した場合の正解率は52.3%だったそうです。ただし、LipNetはボランティアの人が決められた文章を話す様子を撮影し、その映像で読唇術の精度をテストしたものであり、Googleが開発したAIのようにさまざまな映像で読唇術の精度を試したものではないという点には注意が必要です。


GoogleのAIが読唇術の学習に用いた映像の総合計は5000時間を超えており、使用されたのは「Newsnight」「Question Time」「World Today」といった番組。これらの番組では11万8000個の異なる文章や、1万7500個ものユニークワードが登場しているのですが、LipNetがテストに用いた映像ではわずか51個のユニークワードしか登場していません。


DeepMindの研究者はこの読唇術ソフトウェアがさまざまな分野で役立つと見ており、聴覚障害のある人々が会話の内容を理解することに役立つ以外にも、無声映画に注釈をつけたり、SiriやAlexaのような音声認識AIの精度を高めるために使われたりする可能性もある、としています。

なお、研究者によれば、明るい照明の下で高解像度に撮影されたTV映像と、フレームレートの低い低画質な映像とでは読唇術の精度が大きく異なってくるそうですが、海外ニュースメディアのThe Vergeは「AIはその差すらも埋めてきているように思える」とAIによる読唇術の精度の高さを評価しています。

・関連記事
Googleの人工知能や機械学習をスマホのカメラやお絵かきで体験できるデモ集「A.I. Experiments」 - GIGAZINE

人工知能の研究でGoogle・Microsoft・AmazonなどIT業界のビックネームが強力タッグを結成 - GIGAZINE

Googleの人工知能チームがロボットの人類への反逆よりも心配していることとは? - GIGAZINE

Googleが人工知能でゼロから音楽を創造する - GIGAZINE

Googleで開発中の人工知能が綴ったポエムがキモいと話題に - GIGAZINE

囲碁チャンピオンを打ち破ったGoogleの人工知能「AlphaGo」を作った天才デミス・ハサビスが人工知能を語る - GIGAZINE

in ソフトウェア, Posted by logu_ii