レビュー

無料で自分の声を違うキャラクターなどの声にできるリアルタイム音声変換AIを簡単に使えるボイスチェンジャークライアント「VC Client」でどれぐらい声が変わるかレビュー


AI技術の進化によって、絵や文章だけではなく音声変換もAIでリアルタイムに行うことが可能になりました。ボイスチェンジャーAIにはRVC(Retrieval-based Voice Changer)やMMVCなどさまざまな種類が存在しますが、「VC Client」は複数ボイスチェンジャーAI向けモデルに対応しており、簡単にリアルタイム音声変換ができるとのことなので実際に試してみました。

GitHub - w-okada/voice-changer
https://github.com/w-okada/voice-changer

GitHubのレポジトリにアクセスします。


「事前ビルド済みのBinaryでの利用」の欄にあるテーブルで、「win」にある「通常」をクリック。


ダウンロードリンクが表示されるので、「このままダウンロード」をクリックします。なお、VC ClientはZIP形式で配布されており、ファイルサイズは2.7GBあるので注意が必要です。


ダウンロードしたZIPファイルをExplzhなどの解凍ソフトやWindowsの標準機能を使って解凍します。中身はこんな感じ。


次に、動作に必要なモデルをダウンロードするため、以下のリポジトリから「hubert_base.pt」をダウンロードします。

hubert_base.pt · lj1995/VoiceConversionWebUI at main
https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/hubert_base.pt

「Download」をクリックすると、hubert_base.ptをダウンロードできます。


ダウンロードの保存先はVC Clientのフォルダで、start_http.batと同ディレクトリに置きます。このstart_http.batをダブルクリックすると、VC Clientが起動します。


起動するとこんな感じ。VC Clientは複数のボイスチェンジャーAIに対応しています。今回は「RVC」を選択。


以下がRVC向けのクライアント画面。


ボイスチェンジャーとして使うためには、RVC向けのモデルが必要になります。今回はちはや神社さんが無償で配布しているRVC向けの学習済みボイスモデルデータを使ってみます。

【無料】RVC向け学習済みボイスモデルデータ「愛想良い系少女の声 5種風味パック」 - ちはや神社 - BOOTH
https://chihaya369.booth.pm/items/4701666

「RVCモデル_愛想良....ZIP(243MB)」をクリックして、モデルデータをダウンロードします。なお、ダウンロードにはPixivアカウントが必要です。


ダウンロードしたZIPファイルを解凍します。中身はこんな感じ。


VC Clientで、「PyTorch(.pth)」の「select」をクリックしてモデルデータを選択し、「upload」をクリックします。


つづいて、ONNXファイルを生成します。このONNXファイルを生成することで異なるフレームワークでもモデルを共有できるほか、ラグが多少軽減できるとのこと。「export onnx」をクリック。


onnxファイルの書き出しには1分ほどかかります。


「Onnx(onnx)」の「select」をクリックして、書き出したonnxファイルを選択し、「upload」をクリック。


「Device Setting」の「AudioInput」で入力音声デバイスを、「AudioOutput」で出力音声デバイスを選択します。「Server Control」の「start」をクリックすると、ボイスチェンジャー機能がオンになります。


実際に声をリアルタイムで変換してみたところが以下。ラグはだいたい600~700msとなっています。ソフトウェアボイスチェンジャーとしては軽く動作するイメージ。

AIボイスチェンジャークライアント「VC Client」で音声変換しながら「吾輩は猫である」を読んでみた - YouTube


・2023年4月25日追記
モデルを作成したちはや神社さんによると、現行バージョンのRVCへの対応にバグがあったとのことで、修正したモデルが配布されています。

【無料】RVC向け学習済みボイスモデルデータ「愛想良い系少女の声 5種風味パック」 - ちはや神社 - BOOTH
https://chihaya369.booth.pm/items/4701666


実際に修正後のモデルデータで「吾輩は猫である」を朗読してみたところが以下。ラグが600~700msというのは同じですが、滑らかさは明らかに向上し、ボイスチェンジャーとしては十分実用に足るレベルで音声をキレイに変換することができました。以下のムービーを見ると、そのクオリティの高さを確認できます。

RVC向けモデル(修正済み)とAIボイスチェンジャークライアント「VC Client」で音声変換しながら「吾輩は猫である」を読んでみた - YouTube


他にも、例えばRVCを使ってずんだもんの声に変換した結果を以下のムービーから見ることができます。

RVC ずんだもんの音声データを使用してモデル作成
喋って歌う リアルタイムでずんだもんになれる すごい pic.twitter.com/CssWHWUfVg

— 852話 (@8co28)


他にも、VOICEVOXの小夜の声に変換したムービーを以下で見ることができます。

RVC+VC Client でVOICEVOX:小夜/SAYO #sayo_tag ちゃんの声になって #VRChat でヘリコプターを操縦してみたよ。1秒あるかなきかの遅延でリアルタイム変換してくれる。私はいつもどおりの地声で話してるだけで、高い声を作ったりしてない。すごいテクノロジーだね。 pic.twitter.com/3Icv3BOxtl

— 尻P(野尻抱介) (@nojiri_h)


また、start_http.batではなく「start_https.bat」で起動すると、リモートPCでも動作可能となります。例えば「メインのPCでゲーム実況を行い、サブのPCでVC Clientを起動してボイスチェンジャーとして利用する」というように、外部PCにVC Clientの動作を任せることで、負担を減らすことも可能になります。


RVCを使って自分なりのモデルデータを作ることも可能なので、自分好みのボイスチェンジャーを作ることも可能になります。RVCを使った音声モデルデータの作成については、以下に詳しく書かれています。

RVCのWebUIを1から作り直した話|だだっこぱんだ|pixivFANBOX
https://ddpn08.fanbox.cc/posts/5709928

この記事のタイトルとURLをコピーする

・関連記事
マイクで録音するだけで誰でも「結月ゆかり」や「琴葉 茜・葵」の声になれるAI音声合成ソフト「Seiren Voice」を使ってみた - GIGAZINE

無料でブラウザから簡単に声を10種類に変換できるボイスチェンジャー「Koe Recast」を使ってみた - GIGAZINE

AIボイスチェンジャーがGPL違反のタダ乗り状態で配布されている - GIGAZINE

無料で文章から自動で読み上げ音声を合成してくれるソフト「VOICEVOX」を使ってみた - GIGAZINE

ディープラーニングで誰でも簡単に「結月ゆかり」の声になれる音声変換技術が開発される - GIGAZINE

8ch入力でボイスチェンジャーやサウンドパッドも搭載したヤマハのオーディオミキサー「AG08」はライブ配信初心者にこそオススメの1台 - GIGAZINE

in レビュー,   ソフトウェア,   動画, Posted by log1i_yk

You can read the machine translated English article here.