2018年10月18日 12時00分サイエンス

Microsoftの研究者が「声を出さずに音声入力可能」なシステムを開発

SiriやGoogleアシスタント、Alexaといった音声認識アシスタントが普及していますが、外出先などの周りに人がいる状況でこれらの機能を使用すると、周囲にいる人に何をしようとしているのかを聞かれてしまうというデメリットがあります。そんな「声を出さなくてはならない」という音声入力システムの前提を覆す、「声を出さずに音声入力可能」なシステムをMicrosoft Researchの研究者が開発しました。

SilentVoice: Unnoticeable Voice Input by Ingressive Speech - Microsoft Research
https://www.microsoft.com/en-us/research/publication/silentvoice-unnoticeable-voice-input-by-ingressive-speech/

SilentVoice_cameraready_1d_tmp.pdf - UIST2018_SilentVoice_cameraready.pdf
(PDFファイル)https://www.microsoft.com/en-us/research/uploads/prod/2018/10/UIST2018_SilentVoice_cameraready.pdf

通常、人間は普通の声であってもささやき声であっても、声を出す時は息を吐きながら発話します。ところが、Microsoft Researchの研究者である福本雅朗氏は通常の発話方法ではなく、「息を吸いながら発話する」方法を用いた「Silent Voice」という音声入力システムを考案しました。

Silent Voiceがどのような音声入力システムになっているのかは、以下の埋め込みムービーを見るとわかります。

Silent Voice: Unnoticeable Voice Input by Ingressive Speech (Full Version)

カメラに向かった男性が、「Hello everyone, this is a demonstration of SilentVoice.(皆さんこんにちは、これはSilent Voiceのデモンストレーションです)」と普通に発話します。

左下の「Sound Level(音の大きさ)」は、およそ60dB付近を指しています。

続いて、男性が小型のマイクのようなものを口元に押し当てて……

口を動かし始めました。ムービーを見ていても音声としては何も聞こえてきませんが、右下の「Recognition Result(認識結果)」には「hello everyone this」と表示され、言葉が認識されていることが示されています。

左下のSound Levelは30dB後半を指していました。

ムービーでは口パクをしているようにしか見えないのですが、しっかりと「hello everyone this is silentvoice we can use voice input without annoying surrounding(皆さんこんにちは、Silent Voiceでは周囲を気にすることなく、声を出さずに音声入力が可能です)」と言葉が認識されている模様。

Silent Voiceは、唇のすぐ近くに押し当てたプレート型マイクで音声を認識します。

重要な点として、息を吐きながらではなく吸いながら発話するという点が挙げられます。普段は息を吸いながら発話することがないため、使用するには多少の練習が必要になるそうですが、論文によると「練習すれば誰でも15分以内に息を吸いながら発話できるようになる」とのこと。コツとしては「鼻から息を吸わず、口からだけ息を吸う」「大量の息を吸いながらではなく、少量の息を吸いながら発話する」「発話する前に息を吐き、長い文章を一気に発話する」といったものが挙げられていました。

Silent Voiceのメカニズムとしては、息を吸いながら発話した際にマイクと唇の間に生じるわずかなエアギャップを感知し、音声を認識しています。

息を吸いながらの発話を認識するため、周囲に入力している音声が聞こえないのが特徴です。通常の発話では、60dB後半ほどの音量が出ます。

なるべく静かにしゃべろうとしてささやき声にしても、40dB半ば程度の音量は出てしまうようです。

ところが、息を吸いながらの発話では30dB中盤から後半ほどの音量しか出ません。これは普通の場所におけるバックグラウンドノイズの平均値33.8dBとほとんど変わらない数値で、Silent Voiceの発話法だと周囲のノイズに紛れて入力している音声が聞こえなくなるとのこと。

また、通常の発生方法とSilent Voiceの発生方法ではマイクが感じ取るノイズに大きな違いがあるため、マイクが簡単に「Silent Voiceの入力モード」を検知し、音声を認識することができます。そのため、音声入力の際にマイクをSilent Voiceを感知するためのモードに変更する必要もありません。