AIの力で自分の声を好きな声にリアルタイム変換できるボイスチェンジャー「MMVC」が登場
自分の声を美少女ボイスやイケメンボイスに変換してくれるボイスチェンジャーは、ライブ配信やムービー投稿の際にありがたい存在です。しかし、ボイスチェンジャーによって変換できる音声は固定されており、自分好みの音声に変換できるボイスチェンジャーを見つけるのは困難です。天王洲アイル氏は、この問題をAIを用いて解決する方法について解説し、さらにAIの力で自分の声を好みの声にリアルタイム変換できるボイスチェンジャー「MMVC」を公開しています。
VRChatなどの登場によって誰でも好きなアバターを使って好きなキャラクターになりきることが可能となりました。また、自分の声を美少女ボイスやイケメンボイスに変換できるボイスチェンジャーも多くの種類が存在しています。しかし、既存のボイスチェンジャーには「理想的な結果を得るためにはボイスチェンジャーに合わせた発声練習が必要」「リアルタイム変換が不可能なため、会話やライブ配信には不向き」「あらかじめ用意された特定の声にしか変換できない」といった問題があります。
既存のボイスチェンジャーの中には低遅延なリアルタイム変換を可能としたものも存在しますが、それらのボイスチェンジャーを使うと「他のボイスチェンジャー利用者と似た声になってしまう」「機械的なノイズが発生する」といった問題が発生していまいます。
AIによって「あらかじめ用意された声ではなく、好みの声へ変換する」という機能を実現したボイスチェンジャーも開発されていますが、AIを用いたボイスチェンジャーでは「AIの学習に時間が必要」「実用的なクオリティに達していない」「声の学習データが大量に必要」という問題が存在。天王洲アイル氏がこれらの問題を解決可能な技術として紹介しているのが音声合成技術「VITS」です。
VITSは2021年6月に発表された音声合成手法です。既存の音声合成手法は声質変換には利用できませんが、VITSは声質変換に利用可能。さらに、「実際の声とほとんど遜色ない品質」「少ないデータで学習可能」「4万8000kHzの高音質な音声でも1秒間に約41秒分のデータを変換可能」といったリアルタイムなボイスチェンジャーの開発に必要な特徴を備えています。
天王洲アイル氏は、このVITSを用いたボイスチェンジャーを開発しています。この際、音声データを8192サンプル(約0.34秒に相当)ずつに分けて処理しているため、約0.34秒の遅延が生じるとのこと。
上記の技術を用いて開発されたボイスチェンジャーが「MMVC」です。天王洲アイル氏がMMVCを使ってライブ配信した際のデモは、以下のムービーの4分32秒頃から視聴できます。
MMVCは「機械学習を行うために必要なファイル集」と「実際に音声を変換するためのクライアントソフト」に分かれて配布されており、音声を変換するには以下のページから「機械学習を行うために必要なファイル集」をダウンロードし、記載されている手順に従ってAIに音声を学習させる必要があります。
GitHub - isletennos/MMVC_Trainer: AIを使ったリアルタイムボイスチェンジャー(Trainer)
https://github.com/isletennos/MMVC_Trainer
機械学習と聞くと専用の機材や専門的な知識が必要なように感じますが、MMVCはGoogle製のAIプラットフォーム「Colaboratory」の使用手順をまとめた形式(ノートブック形式)で配布されており、手順に従うだけで誰でも機械学習を行うことが可能です。また、学習には「学習させたい声が収録された音声データ」や「音声データの原稿データ」が必要ですが、ネット上で無料公開されている「JVS(Japanese versatile speech) corpus」「ITAコーパスマルチモーダルデータベース」「つくよみちゃんコーパス」といった音声と原稿を含むデータセットを利用可能とのことです。
以下のページでは元の音声(jvs001)とMMVCで変換した音声(target)を比較できます。さらに、「ずんだもん」「つくよみちゃん」の音声を学習させたMMVCでの変換結果も試聴可能です。
MMVC_Demo
https://docs.google.com/presentation/d/1BmP11WfXNRdUA1vYxO7wG6l0t1oMDccDvAgIz2Rbrh0/
なお、MMVCに関する質問は公式Discordチャンネルや天王洲アイル氏のTwitterで受付中とのことです。
・関連記事
7種類の声でAIが文章を感情を込めて読み上げてくれる商用利用可能な読み上げソフト「VOICEPEAK」レビュー - GIGAZINE
無料で文章から自動で読み上げ音声を合成してくれるソフト「VOICEVOX」を使ってみた - GIGAZINE
ディープラーニングで誰でも簡単に「結月ゆかり」の声になれる音声変換技術が開発される - GIGAZINE
誰でも100種類の声に変換できるAIボイスチェンジャーを使ってみたらこんな感じ - GIGAZINE
・関連コンテンツ