ビデオ会議ツール「Google Meet」にAIを使ったノイズキャンセル機能が実装される、その仕組みとは?
現地時間2020年6月8日、ビデオ会議ツール「Google Meet」のウェブブラウザ版にAIを活用した「ノイズキャンセル機能」が実装されました。このノイズキャンセル機能の開発を主導したG Suiteの製品管理ディレクターであるSerge Lachapelle氏が、開発の経緯を明かしています。
How Google Meet's noise cancellation denoiser works | VentureBeat
https://venturebeat.com/2020/06/08/google-meet-noise-cancellation-ai-cloud-denoiser-g-suite/
Google Meetに新たに搭載されたノイズキャンセル機能は、ビデオ会議に参加したユーザーの通話から、犬の鳴き声や掃除機の駆動音のような「ノイズ」を除去してくれるという機能です。以下のムービーを見ると、このノイズキャンセル機能の威力を理解することができます。
Google Meet noise cancellation - YouTube
ムービーでは、「飛行機の搭乗1分前なんだ」と語る男性とGoogle Meetで通話している様子が映し出されています。人の話し声などの雑音が音声に入っており、男性の声は聞き取りづらい状況です。
しかし、ノイズキャンセル機能をオンにすると……
雑音が消滅。男性の声だけを聞き取ることが可能です。
このノイズキャンセル機能はウェブブラウザ版のGoogle Meetに実装されますが、アカウントごとに順次有効化されるため、全てのアカウントで利用可能になるには1カ月以上かかる見込み。Android版とiOS版のGoogle Meetにもノイズキャンセル機能が実装される予定ですが、具体的にいつからスタートするのかは明かされていません。
ノイズキャンセル機能が実装されたウェブブラウザ版のGoogle Meetでは、ノイズキャンセル機能がデフォルトでオンになります。ノイズキャンセル機能をオフにしたい場合は、「Settings」から「Audio」タブを選択して、「Noise cancellation」のトグルボタンをタップすればOK。
このノイズキャンセル機能は、AIによって「ノイズ」と「非ノイズ」を区別しています。このAIは教師あり学習によってトレーニングされており、開発チームはラベル付きのデータセットを用いてAIの学習を進めたとのこと。開発チームを主導したLachapelle氏によると、ノイズキャンセル機能の開発は2018年秋にスタートしており、1年以上にわたってGoogle社内で利用された実績があるそうです。
開発に際して、Lachapelle氏は「Google社内の会議やYouTubeのムービーから音声を抜き出し、AIのトレーニングに活用した」と説明。実際の会議だけではなく、「意図的に作り出したノイズを区別させる」という実験も行われており、ときにはエンジニアがマラカス、ギター、アコーディオンなどを持ち込んで作業することもあったとのこと。
ノイズキャンセル機能の開発にはさまざまな困難があったそうで、最初に問題となったのは「どの音がノイズなのか」を決定することだったとLachapelle氏。どの音がノイズなのかについて万人が同意するということはあり得えませんが、AIをトレーニングする際には「どういった音がノイズなのか」を決定する必要があります。Lachapelle氏は、ノイズの例として「ドアをぴしゃりと閉める音」「犬のほえる声」「楽器の音」「掃除機の音」などを挙げましたが、一方で「子どものケンカ」などの音は全てをキャンセルすべきではないという理由から、極端な音にならない限りはノイズとして処理しないというアプローチをとっているとのこと。どんな音がノイズなのかは今後も調整を重ねる予定で、長い時間を掛けて検討を続けていくとLachapelle氏は語っています。
Lachapelle氏はノイズキャンセル機能を実演するムービーも公開しています。以下のムービーを見ると、実際の環境でノイズキャンセル機能がどのように動作するのかを理解できます。
Google Meet's noise cancellation feature in action - YouTube
ムービーでは、Lachapelle氏がお菓子の袋を触ったときのガサガサする音や……
ノック式のペンをカチカチ鳴らす音
コップにスプーンなどが当たる音といった、「通話中に鳴るのは好ましくない音」を鳴らします。
しかし、ノイズキャンセル機能をオンすると、お菓子の袋を触ってもガサガサ音がほとんど聞こえません。ただし、ノイズキャンセル機能をオンにすると音声がややくぐもった感じになるようです。
ペンをカチカチ鳴らす音などもほとんど聞こえないレベルに。
一方、拍手の音も消されてしまうようです。
実際にどの音がノイズなのかを決定しても、その音をノイズだとAIが認識してくれるとは限りません。Lachapelle氏によると、特定の音域でほえる犬の声はノイズキャンセルが困難とのこと。人間の話し声もかなり幅広い音域を持っており、AIのトレーニングに活用されたデータセットの偏りから「英語以外の言語で使われる音域」が識別困難な状況でした。しかし、「複数の言語に対応することが重要」という理念から、Lachapelle氏のチームはテストを繰り返し、ノイズキャンセル機能を複数の言語に対応させたそうです。
このノイズキャンセル機能の目標は、「会話をより良くすること」だとLachapelle氏は語ります。スマートフォンが普及していつでもどこでも誰とでも気軽に音声通話やビデオ通話が可能になった現代について、Lachapelle氏は「モバイルユーザーは通常、非常に騒々しい環境にいます。人々がどこにいても通話ができるように、私たちはノイズキャンセル機能を騒がしい環境用に設定しています」と述べています。
Google Meetの音声は、暗号化されてデバイスからGoogleのデータセンターに転送された後、再暗号化されてから別のユーザーのGoogle Meetに転送されます。この音声にノイズキャンセル処理を行う場合、「クラウド側で処理する」「アプリ側で処理する」という2つの処理方法が考えられます。Lachapelle氏は「アプリ側の処理はハードウェア的な負担が大きい」「近年のインフラストラクチャの進歩によって、クラウドでメディア操作を行っても20ミリ秒程度の遅延しか生じない」という理由から、「クラウドで処理する」という選択肢を採ったと説明しました。なお、Google Meetでの通話時の音声データはノイズキャンセル処理以外の目的で外部からアクセスすることは不可能となっており、AIのトレーニングに用いられることもないとのことで、Lachapelle氏はプライバシーが保たれていることを強調しています。
新型コロナウイルス感染症の流行により、ビデオ会議ツールのアクティブユーザー数は2019年12月から2020年4月の間に20倍に増加しています。記事作成時点で最もユーザー数が多いビデオ会議ツールは「Zoom」ですが、Googleは2020年4月30日にGoogle Meetを無料化しており、Zoomに対抗する姿勢を見せています。
・関連記事
ビデオ会議ツール「Google Meet」が無料化へ - GIGAZINE
Googleがオンラインビデオ会議ツール「Google Meet」にZoom風のギャラリービューを追加、Gmailからも通話可能 - GIGAZINE
ZoomやMicrosoft Teamsなどビデオ会議ツールの安全性をまとめたレポートをNSAが発表 - GIGAZINE
グループチャットツールのMicrosoft Teamsに「GIF画像を見るだけでアカウントを乗っ取られる脆弱性」が発見される - GIGAZINE
50万人分以上の「Zoom」アカウントが闇市場で売買されたと判明、価格は1アカウント1円未満で無料配布されるケースも - GIGAZINE
・関連コンテンツ