2018年02月20日 09時30分ソフトウェア

ディープラーニングでリアルタイムに声をボカロのものに変換する試み

by israel palacio

人工知能(AI)を用いて自分の声をリアルタムでVOCALOIDの「結月ゆかり」に変換することに成功したのがプログラマーのヒホさん。一体どういうことかというのは、以下のムービーを見ればわかります。

ディープラーニングの力で結月ゆかりの声になってみた - YouTube

ディープラーニングの力で結月ゆかりの声になってみた by ヒホニコニコ技術部/動画 - ニコニコ動画

「結月ゆかりになりたくないですか？」という突然な問いかけからムービーはスタート。

ヒホさんはこの目標を実現するためにディープラーニングを用いたそうです。

というわけで、ここからやり方のザックリとした解説がスタート。

目標は「マスター(ヒホさん)の声を私(結月ゆかり)の声にリアルタイムで変換すること」です。

よくある音声変換の過程は、以下のように声を音声認識を用いて文章化し、それをVOCALOIDなどの音声合成ソフトに読ませるという手法です。

この手法でも結月ゆかりの声になることはできますが、声の中に込められた感情などを伝えることができません。

というわけで、リアルタイムで声を変換しようと試みたそうです。

用いたのは機械学習の手法のひとつである「ディープラーニング」。

というわけで、さっそくデモが流れます。左耳には投稿者の声、右耳には結月ゆかりに変換した声が流れます。聞いていると完璧ではありませんが、通常の音声変換よりも声に感情が残っているように感じられます。

そしてこの「AIを用いて結月ゆかりの声になってみた」手法の技術的な詳細については、ヒホさんのブログ上に記されています。

ディープラーニングの力で結月ゆかりの声になってみた | Hiho's Blog
https://hiroshiba.github.io/blog/became-yuduki-yukari-with-deep-learning-power/

CGやモーションキャプチャー技術の発展により、姿形をバーチャルの女の子に変換する人が増えていますが、声に関しては多くの課題が山積みになっているとのこと。その課題というのは「遅延」「音質」「複数話者」などで、これらを解決した低遅延の高音質声質変換を目指してディープラーニングを用いたそうです。ヒホさんは工夫した点として、「画像ディープラーニング分野で性能の良かったモデルを使用した」「声質変換を『低音質声質変換』部分と『高音質化』部分に分けた」「音響特徴量の変換では1次元のpix2pixモデルを、スペクトログラムの変換では2次元のpix2pixモデルを使った」の3つをあげています。ブログでは実際に声質変換の過程が垣間見える入力音声や変換音声が埋め込まれているので、耳で声質変換の過程を確認できるようになっています。

なお、ディープラーニングの力で結月ゆかりの声になるために使用したコードは以下で公開されているので、ディープラーニングで声を学習させれば誰でも結月ゆかりになれるとのことです。

GitHub - Hiroshiba/become-yukarin: ディープラーニングの力で結月ゆかりの声になるリポジトリ