レビュー

無料で文章から自動で読み上げ音声を合成してくれるソフト「VOICEVOX」を使ってみた


「誰でも100種類の声に変換できるAIボイスチェンジャー」や「ディープラーニングで誰でも簡単に結月ゆかりの声になれる技術」を開発したDwango Media Villageのエンジニアであるヒホさんが、入力した文章から自動で読み上げ音声を合成してくれるオープンソースのソフト「VOICEVOX」を公開したので、実際に使ってみました。

VOICEVOX
https://voicevox.hiroshiba.jp/

????????????????????????????????????????????????????????????????
無料で使える中品質なテキスト音声合成ソフトウェア、#VOICEVOX をリリースしました
????????????????????????????????????????????????????????????????

ぜひダウンロードして遊んでみてください!https://t.co/6MMth631mf

— ヒホ(ヒロシバ)????️ (@hiho_karuta)


上記ページにアクセスし、「ダウンロード」をクリックします。


VOICEVOXはGoogleドライブで、ZIP形式で配布されています。ただし、ダウンロード制限によってダウンロードできない場合は、「ダウンロードできない場合」に書かれているリンクにアクセスすれば、ZIPファイルをダウンロード可能。ZIPファイルのサイズはおよそ3.26GB。解凍後のフォルダの容量はおよそ5.5GBです。


ダウンロードした「VOICEVOX-0.1.1-win.zip」をExplzhやWindows標準の解凍機能などで解凍し、中にある「VOICEVOX.exe」を起動します。


初めて起動すると、エンジンをCPUモードとGPUモードのどちらで起動されるかを尋ねられます。ヒホさんによれば、GPUモードの方がかなり快適に動作するとのことですが、メモリが3GB以上あるNVIDIA製GPUが必要だとのこと。今回はGPUモードで起動します。


画面はこんな感じ。記事作成時点で用意されている音声は、四国めたんずんだもんの2人です。キャラクターの顔の横にある空欄に、読み上げてほしい文章を入力します。


すると、こんな感じでアクセントが表示されます。入力した文章は漢字や数字を混ぜていますが、読みは問題なく認識されました。


「イントネーション」では、各音の高低を調整することで、より細かく話し方を変えることが可能。1文字ごとに高低を自由に調整できるので、標準語だけではなく東北弁や関西弁などといった方言特有のイントネーションも、かなり頑張れば再現できるようになっています。なお、イントネーションを見ると、「おはようございます」の最後の「す」から母音が脱落して子音のみの発音になっており、合成される音声がより自然に近づくように設定されていることがわかります。


また、右カラムにあるスライドバーでは、発話速度・声の高さ・抑揚が調整できます。


入力した文章を、アクセントやイントネーションを一切調整せずに読み上げてもらったところが以下のムービー。細かい部分で気になる部分はあるものの、かなり自然な発音であることがわかります。

無料で文章から自動で読み上げ音声を合成してくれるソフト「VOICEVOX」を使ってみた - YouTube


右下の+アイコンをクリックすると、別音声の入力が可能。さらに音声の隣にある四国めたんの顔をクリックすると……


キャラクターの切り替えが可能。今度は「ずんだもん」にしゃべってもらうことにします。


実際に四国めたんとずんだもんに読み上げてもらったところが以下。少しイントネーションは調整していますが、音声はほぼ自動で決定された状態のもの。わずかに金属的な響きが重なっている部分はありますが、その場で合成しているとは思えないほど自然に読み上げてくれます。

無料で文章から自動で読み上げ音声を合成してくれるソフト「VOICEVOX」で四国めたんとずんだもんに喋ってもらうとこんな感じ - YouTube


ウィンドウ上部にある「書き出し」をクリックすると、任意のフォルダにWAV形式で音声が書き出されます。音声は入力行ごとに出力されるので、ゆっくり実況biimシステムのようにキャラクターの合成音声を大量に使う場合にも重宝しそうです。


ヒホさんによれば、VOICEVOXで利用できるキャラクターは商用利用も可能で、今後追加される可能性があるとのこと。ただし、キャラクターによっては利用規約が異なる場合もあるので注意が必要です。詳細については、以下のムービーで解説されています。

【VOICEVOX】ディープラーニングの力でテキスト読み上げソフトウェアを作ってみた - ニコニコ動画



また、VOICEVOXのソースコードはGitHubで公開されています。

GitHub - Hiroshiba/voicevox
https://github.com/Hiroshiba/voicevox

この記事のタイトルとURLをコピーする

・関連記事
ディープラーニングで誰でも簡単に「結月ゆかり」の声になれる音声変換技術が開発される - GIGAZINE

誰でも100種類の声に変換できるAIボイスチェンジャーを使ってみたらこんな感じ - GIGAZINE

ディープラーニングでリアルタイムに声をボカロのものに変換する試み - GIGAZINE

無料でビル・ゲイツやアーノルド・シュワルツネッガーなど有名人に好きな台詞をしゃべらせることができる「Vocodes」レビュー - GIGAZINE

ビル・ゲイツそっくりの声で話すAIをFacebookのエンジニアが開発 - GIGAZINE

2500万円をAIの作成した合成音声にだまし取られる詐欺事件が発生 - GIGAZINE

in レビュー,   ソフトウェア,   動画, Posted by log1i_yk

You can read the machine translated English article here.