2019年06月11日 13時00分ソフトウェア

ビル・ゲイツそっくりの声で話すAIをFacebookのエンジニアが開発

by Gratisography

AI技術の発達は急速なスピードで進んでおり、テキストを修正するだけでムービー中の音声や映像を修正可能な技術すら開発されています。Facebookのエンジニアが人物がしゃべる音声サンプルをもとに、その人物の会話音声を作り出すAIを開発し、その例として「Microsoft創業者のビル・ゲイツ氏がしゃべっているように聞こえる音声」などを公開しています。

MelNet: A Generative Model for Audio in the Frequency Domain - 1906.01083.pdf
(PDFファイル)https://arxiv.org/pdf/1906.01083.pdf

MelNet - Audio Samples
https://audio-samples.github.io/

Listen to this AI voice clone of Bill Gates created by Facebook’s engineers - The Verge
https://www.theverge.com/2019/6/10/18659897/ai-voice-clone-bill-gates-facebook-melnet-speech-generation

下に埋め込まれた音声ファイルは、いずれもビル・ゲイツ氏が話しているように聞こえます。「He said the same phrase thirty times(彼は同じフレーズを30回も繰り返した)」という言葉や……

「Two plus seven is less than ten(2足す7は10未満だ)」といった言葉が、ビル・ゲイツ氏の声で聞こえます。

実際にビル・ゲイツ氏がTEDのスピーチを行っているムービーがこれ。聞き比べてみても、上の音声はビル・ゲイツ氏の声に思えます。

Bill Gates: Teachers need real feedback | TED Talk

Facebookのエンジニアが開発した「MelNet」というAIが生成したビル・ゲイツ氏そっくりの音声は、このTEDスピーチから採取した声サンプルが用いられています。MelNetは音声サンプルのスペクトログラムを分析するため、音声の「高レベルの構造」を捉えるのに優れているとのこと。

たとえば以下の音声サンプルは、前半5秒が実在の人物が話すデータセットの音声、後半5秒がMelNetによって生成された音声で構成されています。実際に聞いてみても、前半と後半で人間とAIが入れ替わっていると気づくのは非常に困難です。

MelNetはTEDのスピーチを訓練データとして使用しており、ビル・ゲイツ氏以外にもダフニー・コラー氏、フェイ・フェイ・リー氏、ジョージ・タケイ氏、ジェーン・グドール氏、サル・カーン氏、スティーブン・ウルフラム氏、スティーヴン・ホーキング氏の音声サンプルをもとに作られた音声を公式サイト上で聞くことができます。

たとえばタケイ氏の音声サンプルとなるTEDスピーチがこれ。

George Takei: Why I love a country that once betrayed me | TED Talk

MelNetが生成した音声データを聞くと、違いがほぼわかりません。

また、合成音声を使ってスピーチや会話を行っていたホーキング氏に似せられた音声は、合成音声らしくなっています。

MelNetの限界として、人間が長時間スピーチするために発生する変化を捉えきれないという点があります。段落やテキストによってテンションを変えたり、特定の箇所に感情を込めたりといったことはできず、あくまで表面的なレベルで音声の一貫性を保っているとのこと。

なお、MelNetは音楽も生成できるAIとなっていますが、聞いてみたところあまりにも前衛的な演奏となっており、音楽に関しては人間の声ほど上手く生成できないようです。