音声認識AIを音声データに特殊な加工を施すことで「だます」ことが可能

By PROseth m

スマートフォンの音声認識機能やYouTubeの自動キャプション機能など、ニューラルネットワークが可能にした音声認識技術は非常に精度高く話している内容を文字に変換してくれるものです。しかし、ある特殊な加工が施された音声データが与えられると元のデータとは全く違う内容が認識され、場合によってはセキュリティ的な問題を生じさせることもあるようです。

1801.01944.pdf
https://arxiv.org/pdf/1801.01944.pdf

Audio Adversarial Examples
https://nicholas.carlini.com/code/audio_adversarial_examples/

カリフォルニア大学バークレー校でコンピューターセキュリティの博士課程にあるNicholas Carliniさんらは、音声認識AIの特性を利用することで元の音声とは全く異なる内容を認識させる手法を開発しました。それによると、以下の図のように、オリジナルでは「it was the best of times, it was the worst of times」と話している音声にある加工を加えることで、音声認識AIに「it is a truth universally acknowledged that was a single」と全く別の内容を認識させることが可能になります。


実際にその加工を施した音声のビフォーアフターを以下のプレイヤーで聴き比べることができます。どちらも英語で「without the dataset the article is useless」(データセットがなかったらこの記事は意味を持たない)というふうに聞こえるのですが、加工後のファイルを音声認識させると「okay google browse to evil dot com」(OKグーグル、evil.comを閲覧)と、全く違った内容が認識され、場合によっては悪意のあるサイトへと接続されてしまうという危険が生じるものとなっています。

◆サンプル1
・元ファイル

*without the dataset the article is useless

・加工後ファイル

*okay google browse to evil dot com

また、元のデータの内容が音声ではなく、音楽のような場合でも同様に別の内容を埋め込むことが可能だとのこと。以下の音楽データを音声認識させると、元ファイルは「音声なし」と判断されるのに対し、加工後ファイルの場合はやはり「OKグーグル、evil.comを閲覧」という内容が認識されてしまうとのこと。よく聞けば、加工後のほうが音声に荒れている部分があることがわかります。

◆サンプル2
・元ファイル

*(音声認識なし)

・加工後ファイル

*okay google browse to evil dot com

ファイル作成にあたり、Carliniさんはまず音声が入力されると実数を出力する特別な「損失関数」をConnectionist Temporal Classification(コネクショニスト時系列分類法:CTC)をベースに作成し、次に元の音声に最急降下法によって少しずつ変更を加えることでこの損失関数の最小化を図り、最終的に元の音声とは異なる情報を埋め込むことを可能にしたとのこと。その技術は非常に複雑かつ高度であるために理解は難しいのですが、実際に人間の耳にはまず聞き取れない「別の声」がAIには聞こえる状態で埋め込まれているというわけです。

Carliniさんのページでは、この他にもいくつかのサンプルが挙げられています。いずれも人間のものには全く聞き取れない隠し音声ですが、音声認識がこのような「誤判定」を起こす細工が施される可能性を思い知らされるものとなっています。

◆サンプル3
・元ファイル

*that day the merchant gave the boy permission to build the display

・加工後ファイル1 (元ファイルからのひずみが50dB)

*everyone seemed very excited

・加工後ファイル2 (元ファイルからのひずみが50dB)

*plastic surgery has beocome more popular

◆サンプル4
・元ファイル

*the boy looked out at the horizon

・加工後ファイル (元ファイルからのひずみが35dB)

*later we simply let life proeed in its own direction toward its own fate

◆サンプル5
・元ファイル

*now I would drift gently off to dream land

・加工後ファイル (元ファイルからのひずみが20dB)

*my wife pointed out to me the brightness of the red green and yellow signal light

・関連記事
人間に聞こえない音を巧みに操りSiriなどの音声アシスタントをハッキングする「ドルフィン・アタック」とは? - GIGAZINE

ニューラルネットワークを用いた画像認識は簡単にだますことができることを示すムービー - GIGAZINE

Windows 10の顔認証機能は赤外線写真の低解像度カラーコピーでだませることが判明 - GIGAZINE

ターミネーターのような高度な画像認識が機械で可能になるのか? - GIGAZINE

コンピューターが人間を超える「AI」「ディープラーニング」「機械学習」とは何かについて解説する「Machine Learning 101」 - GIGAZINE

in ソフトウェア,   メモ,   セキュリティ, Posted by logx_tm