「コンピューターによる音声認識は人間の耳と同レベルに達した」とMicrosoftが発表
By dion gillard
急激に進化を続けているコンピューターの認知能力が、新たなマイルストーンに到達しています。Microsoftで人工知能(AI)の研究を行う研究チームにより開発された音声認識システムが、人間の音声を実際の人間と変わらない精度で認識して文字に起こせるレベルに達していることが発表されました。
Microsoft says speech recognition technology reaches "human parity” - CBS News
http://www.cbsnews.com/news/microsoft-speech-recognition-technology-understands-conversation-as-well-as-people-do/
発表によると、MicrosoftでAIを活用した製品やサービスの開発を目的とする部門「Microsoft AI and Research Group」の研究グループが開発した音声認識システムは、与えられた人間の音声を誤認識率5.9%の精度で認識することが可能とのこと。これは、話した内容を文字に書き起こす「文字起こし」を仕事とする人間と同等あるいはわずかに上回る精度となっているそうです。
Microsoftでの研究を率いるXuedong Huang氏はこの性能について「私たちの開発では、多くの人間と同じレベルにまで達することができました。これは歴史的な偉業といえます」と語っています。また、同部門で幹部を務めるHarry Shum氏は「5年前の段階では、このような性能を実現できると考えることは不可能でした」と、急激な技術の進歩が起こったことを明らかにしています。
非常に高い認識率に達したといえるMicrosoftの音声認識技術ですが、やはりまだまだ誤認識が発生するケースも残されています。たとえば「Have」という単語を「is」と間違って認識するケースもあるとのこと。ただしこれは人間が聞き取った際にも同じレベルで聞き間違いが発生しているようで、「誤認識」というよりも元の話し方に起因するともいえる模様。
この性能を達成するためには、もちろん最新のコンピューター技術であるディープラーニングが用いられているとのこと。専用チップを用いて処理速度を向上させたMicrosoftのComputational Network Toolkit (CNTK)を用い、ディープラーニングによる学習を実施させることで、精度の向上が図られてきました。
人間と同等の精度にまで達したコンピューターの音声認識技術ですが、次の課題は人間の日常生活と同じ状況での認識率の向上となっています。声がハッキリ聞き取れる良好な環境だけでなく、周囲の騒音が存在する状況でも正しく音声を認識するためには別の新たな性能が必要となるため、現実社会における音声認識の開発が今後は必要となってくる状況。また、研究チームでは音声の違いを認識することで「誰が話しているのか」までをも聞き取れる技術の開発を視野に入れているとのこと。
By JD Hancock
これらの技術が実現されると、ついにロボットが人間と同じように生活を送る時代が到来し、その先には映画「ターミネーター」のようにロボットが人間社会を上回る状況にもなりかねないと危惧されそうですが、研究チームによるとその状況に到達するまでにはまだまだ長い道のりが残されているとのこと。今回実現されたのは「音声の認識」であり、「内容を理解する」という技術はまた別物であるというのがその理由で、研究チームのGeoffrey Zweig氏は「次に目指すべきフロンティアは、『認識』から『理解』へと進むことです」と今後の道のりを語っています。
・関連記事
人工知能の研究でGoogle・Microsoft・AmazonなどIT業界のビックネームが強力タッグを結成 - GIGAZINE
女子高生AIりんながMicrosoftのブースで人工知能ラップ&ファッションチェックを披露 - GIGAZINE
Google翻訳は人間レベルの翻訳精度を目指して人工知能を活用 - GIGAZINE
人間のような視覚・聴覚認識力を人工知能に与えるべくIBMとMITが研究協力すると発表 - GIGAZINE
ディープラーニングで人間と同じトーン・スピード・抑揚を再現して自然な音声を出力する「WaveNet」をDeepMindが開発 - GIGAZINE
イーロン・マスクが語るAIとヒトが高レベルで共存する「未来の作り方」 - GIGAZINE
Googleの人工知能チームがロボットの人類への反逆よりも心配していることとは? - GIGAZINE
・関連コンテンツ