ソフトウェア

ビル・ゲイツそっくりの声で話すAIをFacebookのエンジニアが開発

by Gratisography

AI技術の発達は急速なスピードで進んでおり、テキストを修正するだけでムービー中の音声や映像を修正可能な技術すら開発されています。Facebookのエンジニアが人物がしゃべる音声サンプルをもとに、その人物の会話音声を作り出すAIを開発し、その例として「Microsoft創業者のビル・ゲイツ氏がしゃべっているように聞こえる音声」などを公開しています。

MelNet: A Generative Model for Audio in the Frequency Domain - 1906.01083.pdf
(PDFファイル)https://arxiv.org/pdf/1906.01083.pdf

MelNet - Audio Samples
https://audio-samples.github.io/

Listen to this AI voice clone of Bill Gates created by Facebook’s engineers - The Verge
https://www.theverge.com/2019/6/10/18659897/ai-voice-clone-bill-gates-facebook-melnet-speech-generation


下に埋め込まれた音声ファイルは、いずれもビル・ゲイツ氏が話しているように聞こえます。「He said the same phrase thirty times(彼は同じフレーズを30回も繰り返した)」という言葉や……


「Two plus seven is less than ten(2足す7は10未満だ)」といった言葉が、ビル・ゲイツ氏の声で聞こえます。


実際にビル・ゲイツ氏がTEDのスピーチを行っているムービーがこれ。聞き比べてみても、上の音声はビル・ゲイツ氏の声に思えます。

Bill Gates: Teachers need real feedback | TED Talk



Facebookのエンジニアが開発した「MelNet」というAIが生成したビル・ゲイツ氏そっくりの音声は、このTEDスピーチから採取した声サンプルが用いられています。MelNetは音声サンプルのスペクトログラムを分析するため、音声の「高レベルの構造」を捉えるのに優れているとのこと。

たとえば以下の音声サンプルは、前半5秒が実在の人物が話すデータセットの音声、後半5秒がMelNetによって生成された音声で構成されています。実際に聞いてみても、前半と後半で人間とAIが入れ替わっていると気づくのは非常に困難です。






MelNetはTEDのスピーチを訓練データとして使用しており、ビル・ゲイツ氏以外にもダフニー・コラー氏、フェイ・フェイ・リー氏、ジョージ・タケイ氏、ジェーン・グドール氏、サル・カーン氏、スティーブン・ウルフラム氏、スティーヴン・ホーキング氏の音声サンプルをもとに作られた音声を公式サイト上で聞くことができます。


たとえばタケイ氏の音声サンプルとなるTEDスピーチがこれ。

George Takei: Why I love a country that once betrayed me | TED Talk



MelNetが生成した音声データを聞くと、違いがほぼわかりません。


また、合成音声を使ってスピーチや会話を行っていたホーキング氏に似せられた音声は、合成音声らしくなっています。


MelNetの限界として、人間が長時間スピーチするために発生する変化を捉えきれないという点があります。段落やテキストによってテンションを変えたり、特定の箇所に感情を込めたりといったことはできず、あくまで表面的なレベルで音声の一貫性を保っているとのこと。

なお、MelNetは音楽も生成できるAIとなっていますが、聞いてみたところあまりにも前衛的な演奏となっており、音楽に関しては人間の声ほど上手く生成できないようです。



この記事のタイトルとURLをコピーする

・関連記事
リアルタイムで性別変換してしまう話題のカメラフィルターのすごさをAI研究者が分析 - GIGAZINE

テキストを修正するだけでムービー中の言い間違えを簡単に修正可能な技術が開発される - GIGAZINE

ディープラーニングを使った驚異のムービー編集技術「Deep Video」では人の表情や頭・目の動き、まばたきまで別の人に移植可能 - GIGAZINE

GoogleのAIが「ムービーの最初と最後のコマ」から途中のコマを生成することに成功 - GIGAZINE

赤ちゃんの泣き声の意味をAIで聞き分けることが可能に - GIGAZINE

Samsungが1枚の写真や絵画からリアルな会話アニメーションを作成できる技術を開発 - GIGAZINE

AIによる「ピッタリな食材や飲み物の組みあわせ」予測が高精度でプロの見解と一致、今後は新メニューの提案も - GIGAZINE

in ソフトウェア,   サイエンス,   動画, Posted by log1h_ik

You can read the machine translated English article here.