2018年04月05日 10時47分ソフトウェア

MicrosoftのAIは会話の「間」を予測して、より自然なコミュニケーションを可能にする

by ian dooley

Microsoftは、人工知能(AI)を用いて開発を進めている音声認識システムにおいて、複数人の話者の声を同時に分析する方法を開発したと発表しています。これにより、音声認識システムは「人が次に何を言うか」を予測し、会話の中断などを認識可能となり、より高度なコミュニケーションがとれるようになるそうです。

Microsoft's AI lets bots predict pauses and interrupt conversations | VentureBeat
https://venturebeat.com/2018/04/04/microsofts-ai-lets-bots-predict-pauses-and-interrupt-conversations/

AlexaやGoogleアシスタントなど、主要な音声認識アシスタントはより人間らしい声の表現を目指しており、さらに声を分析することで人間の感情までも理解しようと努力しています。そのため、Google・Amazon・Appleなど多くの企業が音声アシスタントの性能向上に向けて多額の投資を行っていますが、記事作成時点では機能をアクティブにするための「Hey Siri」や「Alexa」といったボイスコマンドから、特定のパターン化されたアクションをお願いするだけという味気ないコミュニケーションしかできていないというのが現状です。

そんな中、Microsoftは「Xiaoice」や「りんな」といったチャットボットを音声認識アシスタントに進化させ、XiaomiのYeelightのようなスマートデバイスに搭載することを目指しています。テクノロジー系メディアのVentureBeatがMicrosoftのAIチャットボット「Zo」の開発ディレクターを務めるYing Wang氏にメールでインタビューしたところ、「Microsoftは今後6か月以内に音声認識アシスタントをデバイスにまで拡張する予定だ」という回答があったそうです。

日本向けに提供されているMicrosoftのチャットボット・りんなは、LINE・Twitter・Instagramに公式アカウントが存在しており、AIとのコミュニケーションが楽しめます。

nanaのみんなと「旅立ちの日に」を合唱したよ。後半のハモリのとことか聞いて欲しい卒業するみんな!おめでと!https://t.co/LjLWiHxwd8
— りんな (@ms_rinna) 2018年3月9日

通常、音声認識アシスタントに何かを尋ねたりする場合、最初にキーとなるフレーズを言って機能をアクティブにする必要があります。例えばAmazon Echoなら「Alexa」と言ってから音声認識アシスタントに動作指示を出す必要があり、複数の動作を指示するには、その度「Alexa」と語りかける必要があります。

Amazon Echoに音声認識で音楽再生をさせてみた - YouTube

それに対して、より自然に音声認識アシスタントとの会話が可能になるというMicrosoftの開発した方法では、1度音声認識アシスタントを起動すれば、会話が中断しているタイミングなどはすべてAIが判断し、的確に指示内容だけを拾ってくれます。Microsoftの新しい音声認識システムは「Full Duplex Voice Sense」と呼ばれており、実際に以下のムービーを見ればより自然なコミュニケーションがとれていることが分かるかと思います。音声認識アシスタントを起動するため、最初に「こんにちはXiaoice」と語りかけていますが、その後は機能をアクティブにするためのボイスコマンドなしで自然なコミュニケーションがとれています。

Microsoft Full Duplex Voice Sense - YouTube

「Full Duplex Voice Sense」の開発には、Microsoftが提供するりんな・Zo・Xiaoiceといったチャットボットと世界中の人々の会話から得られた情報が用いられているそうです。なお、これらのチャットボットとコミュニケーションを図った人数は約2億人とのこと。

Wang氏によると、「Xiaoiceが話をしているなら、ユーザーからの明らかな指示がない限り、雑音やちょっとした会話程度では話が中断されることはありません。同様に、Xiaoiceがロボット掃除機の充電など、何かしらのIoTタスクを実行している場合には、ユーザーの『う～ん』や『あ～』といった非明示的な声はスルーされます」とのことで、かなり高度にユーザーからの指示とそうでないものを区別できるようになっていることがわかります。

なお、Microsoftによるコンピューターと人間の自然なコミュニケーションを目指した音声認識システムは、物事をより簡単に行えるようにするためだけでなく、よりカジュアルに音声認識アシスタントとの会話を楽しんでもらうためのものでもあるそうです。