2018年03月28日 12時30分ソフトウェア

DeepMindが作ったテキスト読み上げ技術「Cloud Text-to-Speech」をGoogleが公開、誰でも利用可能に

by Jacek Dylag

Google AssistantやGoogle Mapのナビに使われているGoogleのText-to-Speechエンジンが開発者向けに公開されました。このText-to-SpeechエンジンはDeepMindによって作られた音声入出力技術「WaveNet」を使った高忠実度の音声を含み、「コールセンターの対応」や「IoTデバイスでの活用」などさまざまな使用方法が可能になります。

Google Cloud Platform Blog: Introducing Cloud Text-to-Speech powered by DeepMind WaveNet technology
https://cloudplatform.googleblog.com/2018/03/introducing-Cloud-Text-to-Speech-powered-by-Deepmind-WaveNet-technology.html

Googleの「Cloud Text-to-Speech」は記事作成時点でベータ版ですが、以下のリンクからアクセスすることが可能。

Cloud Text-to-Speech - Speech Synthesis | Google Cloud
https://cloud.google.com/text-to-speech/

Cloud Text-to-Speechは日本語を含む12言語・32種類の音声に対応。開発者はピッチ、発声速度、MP3もしくはWAVのボリューム・ゲインを調節できるようになっています。

WaveNetは2016年に発表された技術で、初代モデルは0.02秒の波形を作るのに1秒を要していましたが、2018年3月時点で初代モデルの1000倍も高速になり、長さ1秒の音声を50ミリ秒で生成可能とのこと。