Appleが「HomePodはユーザーの声を正確に認識するためどのような技術を用いているか?」を解説
Appleの音声認識アシスタントである「Siri」は、iPhoneやiPadといったモバイル端末の他、スマートスピーカーのHomePodにも搭載されています。iPhoneなどは比較的ユーザーの口の近くで「Hey Siri」と使用されるものですが、スマートスピーカーのHomePodは一カ所に固定して使用するものであるため、iPhoneなどよりも遠くからユーザーに話しかけられるケースが多くなり、環境音などの中から正確に「Hey Siri」というコマンドおよび話者の発言を認識する必要性が出てきます。「TVから出る音」や「HomePodに話しかけていない声」などの中から、正確に「HomePodに話しかけられている声」を検出するために、Appleがどのような方法を用いているかがApple Machine Learning Journal上で明かされています。
Optimizing Siri on HomePod in Far‑Field Settings - Apple
https://machinelearning.apple.com/2018/12/03/optimizing-siri-on-homepod-in-far-field-settings.html
Siri搭載のHomePodは、スピーカーでありつつスマートホーム機能も有しているため、「大音量で音楽を再生している際」や「ユーザーがHomePodから遠く離れている際」、さらには「TVや家電製品などの他の音源がアクティブな際」であってもユーザーの「Hey Siri」などの声を正しく認識できる必要があります。
そこで、Appleのオーディオ・ソフトウェア・エンジニアリングチームとSiriチームが協力し、ディープラーニングとオンライン学習アルゴリズムを統合し、複数のマイク信号を活用して遠くからの話し声もしっかりと認識できるシステムを構築しました。開発チームが構築したマルチチャンネル信号処理システムは、主に「ディープラーニングを用いた、エコーおよび背景ノイズを除去するマスクベースのマルチチャンネルフィルタリング機能」と「教師なし学習を用いた、同時音源とトリガーフレーズベースのストリーム選択を分離し、干渉する音源を排除する機能」を組み合わせたものとなっているそうです。
マルチチャンネル信号処理システムはHomePodの6つのマイクとA8チップを使用し、連続してマルチチャンネル信号処理を実行します。Homepodがエネルギーを節約するために最低電力状態で動作している際にもマルチチャンネル信号処理は実行されるため、HomePodは「常に変化するノイズ状態」および「移動する話者」に適切に対応することが可能となります。
HomePod以外の最先端システムでもマルチマイク処理は実行されているそうですが、大抵の場合は「エコー除去」や「ノイズ抑制」などが行われているだけだそうです。エコーやノイズを抑制するために音声強調システムが使用されるわけですが、このシステムでは「教師あり学習」もしくは「教師なし学習」を用いて不要な音声信号の特性を学習する必要があります。
近年、ディープラーニングの登場によりこの音声強調システムの性能が大幅に向上しているそうです。そして、レベルの高いシステム上では、「マルチチャネルノイズ抑制フィルタを駆動するディープニューラルネットワークを使用することで音声存在確率を学習する」という手法がとられているとのこと。しかし、これらのシステムは一般的に「実行時に完全な音声発話が利用可能であり、システムが音声コマンド中にすべての音声サンプルを利用するためのバッチ処理を実行する」と仮定して構築されるものだそうです。そのため、「待機時間が長くなる」という欠点を持ち、さらに家庭用アシスタントデバイスの常時リスニングモードの音声強化機能が妨げられるとのこと。また、音声条件の予測が不可能なため、音声コマンドの開始点と終了点をあらかじめ使用することができないという点もHomePodには不適と判断される要素のひとつとなった模様。
遠い場所からの音声を認識する場合、人やTVのような別の能動的な話し手が目標の話者と同じ部屋にいる時に邪魔になります。「Hey Siri」のような音声コマンドが干渉する音声要素から分離されていなければ、音声トリガー検出・音声復号化・エンドポイント化といったポイントの精度が大幅に低下する可能性があります。
伝統的に、研究者は独立成分分析およびクラスタリング、教師なし学習、ディープラーニングなどを用いて音源の分離を試みていたそうですが、スマートスピーカーのような遠距離音声コマンド駆動インターフェースにおいては、これらの処理の有効性は非常に限られているとのこと。そのため、低遅延で音声コマンドを含むターゲットストリームのみを選択・デコードできるようにマルチチャンネル信号処理システムが開発されることとなりました。これにより、Appleの開発したマルチチャンネル信号処理システムでは競合する音声信号をオンラインで分離することができるようになっています。
開発されたマルチチャンネル信号処理システムは、「さまざまな音量で音楽やPodcastを再生している環境」や「雨のノイズを含む連続的な背景ノイズが発生する環境」「掃除機、ヘアードライヤー、電子レンジなどの家電が指向性ノイズを発する環境」「外部の競合する発言源からの干渉がある環境」でテストを行い、その精度を検証しています。
以下のグラフは「Reverberation(反響)」「Echo(エコー)」「Noise(ノイズ)」「Competing Talker(競合話者)」という4つの音響条件別に、「Hey Siri」の誤検出率を示したもの。青が「処理なし」、緑が「基本のデジタル信号処理のみ行った場合」、オレンジが「緑の処理+マスクベースのノイズ軽減処理を行った場合」、黄色が「オレンジの処理+ストリーム選択を行った場合」の誤検出率を示しています。処理を重ねるごとにより複雑な音響環境下での「Hey Siri」の誤検出率が低下していくことがわかります。
以下のグラフは上のグラフと同じ音響条件下で同じ処理を行った場合の、ワード誤検出率(WER)を示したもの。グラフの青色は発言を誤検出したケース、緑色は聞き逃しが原因となった誤検出を示しています。
2つの結果から、大きな音や反響、ノイズ、競合する話者などがいた場合であっても、ユーザーはHomePodと簡単に対話できるようになっていることが示されています。
・関連記事
AppleのSiri搭載ホームスピーカー「HomePod」が登場、日本での発売時期は未定 - GIGAZINE
Appleはわずか2か月で60万台のHomePod出荷、スマートスピーカー市場で存在感を示しながら問題点も - GIGAZINE
Apple「HomePod」のCMの撮影方法がわかるメイキング映像が公開中 - GIGAZINE
Appleのスマートスピーカー「HomePod」についてわかっていることまとめ - GIGAZINE
・関連コンテンツ