ソフトウェア

DeepMindが作ったテキスト読み上げ技術「Cloud Text-to-Speech」をGoogleが公開、誰でも利用可能に

by Jacek Dylag

Google AssistantやGoogle Mapのナビに使われているGoogleのText-to-Speechエンジンが開発者向けに公開されました。このText-to-SpeechエンジンはDeepMindによって作られた音声入出力技術「WaveNet」を使った高忠実度の音声を含み、「コールセンターの対応」や「IoTデバイスでの活用」などさまざまな使用方法が可能になります。

Google Cloud Platform Blog: Introducing Cloud Text-to-Speech powered by DeepMind WaveNet technology
https://cloudplatform.googleblog.com/2018/03/introducing-Cloud-Text-to-Speech-powered-by-Deepmind-WaveNet-technology.html

Googleの「Cloud Text-to-Speech」は記事作成時点でベータ版ですが、以下のリンクからアクセスすることが可能。

Cloud Text-to-Speech - Speech Synthesis  |  Google Cloud
https://cloud.google.com/text-to-speech/


Cloud Text-to-Speechは日本語を含む12言語・32種類の音声に対応。開発者はピッチ、発声速度、MP3もしくはWAVのボリューム・ゲインを調節できるようになっています。

WaveNetは2016年に発表された技術で、初代モデルは0.02秒の波形を作るのに1秒を要していましたが、2018年3月時点で初代モデルの1000倍も高速になり、長さ1秒の音声を50ミリ秒で生成可能とのこと。


また速度だけではなく、高音質であることもポイントです。平均オピニオン評点の結果、WaveNetの音声は標準の20%以上スコアがよく、実際の人間の音声に近づいていることが示されています。

この記事のタイトルとURLをコピーする

・関連記事
Amazonがテキストをネイティブレベルの自然な音声に変換する「Amazon Polly」を発表、24の言語と47の音声に対応 - GIGAZINE

ディープラーニングでリアルタイムに声をボカロのものに変換する試み - GIGAZINE

ディープラーニングで人間と同じトーン・スピード・抑揚を再現して自然な音声を出力する「WaveNet」をDeepMindが開発 - GIGAZINE

ディープラーニングで人間のような自然な音声を話す「WaveNet」がGoogleアシスタント搭載の新ハードウェアに搭載 - GIGAZINE

in ソフトウェア, Posted by darkhorse_log

You can read the machine translated English article here.