ルンバのように自動展開して「特定の人の声」だけを拾えるスマートスピーカーが登場
いろんな人が声を出している空間で誰が何をしゃべっているのか聞き分けるのは非常に困難です。これは人間だけでなくマイクも同じで、1カ所に設置されたマイクでさまざまなエリアから発せられた声を区別するのは至難の業。この問題を、自動的に展開する小型のロボットマイクで解決したという研究の結果が報告されました。
Creating speech zones with self-distributing acoustic swarms | Nature Communications
https://www.nature.com/articles/s41467-023-40869-8
UW team’s shape-changing smart speaker lets u | EurekAlert!
https://www.eurekalert.org/news-releases/1001914
ワシントン大学のトゥーチャオ・チェン氏らが開発したロボットのプロトタイプは以下のようなもの。スピーカー、マイク、バッテリー、ホイール、モーターなどで構築されています。
寸法は3.0cm×2.6cm×3.0cm。手のひらに複数乗るほど小さいものです。
ロボットはベースステーションに集約され、ここから1台ずつルンバのように展開していきます。
実際にロボットが展開する様子は以下の動画で見ることができます。
Shape-changing smart speakers create speech zones - YouTube
ロボットはコウモリが発するような高周波音を出し、この周波数とセンサーを使って障害物をよけ、テーブルから落ちることなく分散します。
こうして配置されたロボットはそれぞれのエリアから音声を記録します。自分から1メートル離れた位置にマイクA、2メートル離れた位置にマイクBがある場合、自分の声はまずマイクAに届き、少し遅れてマイクBに届きます。他方、マイクBの近くにいる人はマイクBへ先に声が届くという仕組みです。このように、「どのマイクにどのタイミングで声が届いたのか」を調べることで、特定の場所にいる人の声を聞き分けたり、特定のエリアをミュートしたりすることができるそうです。
研究チームは、オフィス、リビングルーム、キッチンの3空間で、3人から5人のグループで会話する様子を記録しました。これらの環境すべてにおいて、ほとんど隣同士でしゃべっている人の声を聞き分けることができたと報告されています。また、深層学習アルゴリズムのおかげで、隣り合う2人の声が似ている場合でも聞き分けることが可能だとのことです。
研究者らが実施したシナリオのひとつが、離れた場所にいる3人の話者に同時に声を発してもらうというものです。このシナリオにおいて、話者(赤丸)は以下の画像の位置にとどまり、ロボットはドットの位置へ分散しました。バツ印は、音を聞いたロボットが予測した話者の位置です。
この状態で録音された音声が以下。これだけ聞くと、誰が何を言っているのかわかりません。
上記の録音から話者ごとに切り取ったものが以下の3つです。
話者1
話者2
話者3
会話から特定のエリアの音声だけを切り取る様子は、以下の動画でも確認できます。
ConversationZones - YouTube
複数のマイクから得た音声を処理する時間は、3秒間の音声で平均1.82秒でした。これは、ライブストリーミングなどの単方向通信では十分な速度ですが、ビデオ通話のようなリアルタイム通信には少し長く感じられる速度です。
研究者らによれば、この技術が進歩するにつれ、スマートスピーカーで話している人を区別するために、複数のマイクからなるシステムが導入される可能性があるそうです。そうなれば、例えば「アクティブゾーン」にいるソファに座っている人だけがテレビを音声で操作することも可能になります。
今回のロボットはひとつのテーブルの上で分散しましたが、これについて研究者たちは「最終的には、テーブルの上に限定されず、部屋の中を動き回れるマイクロボットを作る予定です」と話し、将来的に部屋中の音を区別する可能性を見いだしています。
・関連記事
スピーカーをドローンで飛ばす電子ピアノをローランドが開発 - GIGAZINE
鳥の羽のようなデザインのピアノ「Ravenchord」 - GIGAZINE
3種類の音声ファイルのうちどれが1番高音質なのかを当てる「How Well Can You Hear Audio Quality?」 - GIGAZINE
・関連コンテンツ
in ハードウェア, Posted by log1p_kr
You can read the machine translated English article Introducing a smart speaker that can aut….