動画

ディープラーニングで誰でも簡単に「結月ゆかり」の声になれる音声変換技術が開発される


AH-Softwareの読み上げ用音声合成ソフトのVOICEROIDは、自分で好きな言葉をソフトウェアに読み上げさせることができるため、動画のナレーションやロボットの発話によく使われています。しかし、VOICEROIDの設定はやや面倒で時間がかかるもの。そこで、マイクで録音した音声をVOICEROIDの「結月ゆかり」さんの声に誰でも簡単に変換できるボイスチェンジ技術を、Dwango Media Villageのエンジニアであるヒホさんがニコニコ動画で発表しました。

ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた - ニコニコ動画


今回ヒホさんが開発したのは、高品質に誰の声でもゆかりさんの声に変換できるという技術です。


ムービー中では、実際にヒホさんの声をゆかりさんの声に変換したものを聞くことができます。


「声を変換する」ということは、入力された音声データを別の音声データに変換することであり、昨今では深層学習によるアルゴリズムで変換されるのが主流だそうです。


ただし、従来の音声変換は、入力された音声の波形を目的の音声データに近づけることで変換しますが、そのためには入力音声ごとにアルゴリズムが変換を学習せねばならず、効率はよくありません。


しかし、ヒホさんの技術では、まず音声を音高(音程の高低)と音素(発音単位)に分解し、音高だけを変換して再合成するという方法を採用しています。テキストから音声を作り出す本来のVOICEROIDシステムでは、声に抑揚や感情を乗せるために入念な調整が必要でしたが、この方法であれば、誰の声であっても膨大な学習データを必要とすることなく、音声を変換することが可能です。


実際にヒホさんが人気バトルロイヤルシューティング「Apex Legends」をプレイしながら実況している音声を、ゆかりさんの声に変換する様子がムービーで確認できます。


ヒホさんはこの技術を、自作アニメの制作やVTuberのような活動、TRPGリプレイ、解説動画などにも応用できるとしています。ただし、記事作成時点ではこの声変換システムを配布する予定はないとのことです。


本来音声変換は「リアルタイム性」と「音声品質」をトレードオフする必要があり、今回の技術は音声品質を追求しているため、音声を入力してすぐに変換するリアルタイム性は弱いとのこと。それでも、本来VOICEROIDの声を違和感なく設定するにはある程度の経験やコツも求められるものがあるため、誰でも簡単にゆかりさんの声を手に入れられるのは大きな魅力です。

なお、ヒホさんは同様のシステムを応用したAIボイスチェンジャー「Seiren Voice」も開発しています。Seiren Voiceも入力音声から音素を抽出してからアルゴリズムで音声を合成する方式で、深層学習に膨大な学習データや学習のやり直しを必要としないのが特徴です。

誰でも100種類の声に変換できるAIボイスチェンジャーを使ってみたらこんな感じ - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
テキストを修正するだけでムービー中の言い間違いを簡単に修正可能な技術が開発される - GIGAZINE

無料で簡単にリアルタイム&低遅延のボイスチェンジを体験できる「Gachikoe! Core」を使ってみた - GIGAZINE

誰でも100種類の声に変換できるAIボイスチェンジャーを使ってみたらこんな感じ - GIGAZINE

「ONE PIECE」サンジ役の平田広明さん&「のんのんびより」れんげ役の小岩井ことりさんの声が出せる「アニメガホン」 - GIGAZINE

人気声優の声にリアルタイムで変換してくれるボイスチェンジャーアプリ「リアチェンvoice~ジュラ紀版」レビュー - GIGAZINE

in ソフトウェア,   動画, Posted by log1i_yk

You can read the machine translated English article here.