2024年10月31日 12時30分ソフトウェア

Googleが音声生成AIの現状を解説、わずか1秒で40秒分の会話音声を生成できるも人間からは「不気味に聞こえる」と評価

Googleが自社の音声生成AIの現状の能力について、ブログ記事を投稿しました。

Pushing the frontiers of audio generation - Google DeepMind
https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/

Googleは2024年9月、論文や書籍の内容を要約してポッドキャスト風の会話音声に変換する「Illuminate」をリリースするとともに、AIを活用したメモ作成アプリ「NotebookLM」に会話音声で概要を説明する機能を追加しました。

こうした「数十秒を超える」「複数の話者が登場する」「会話が自然」などの特徴を備えた音声を生成できるようになったのは長年にわたる研究のおかげとのこと。2021年8月に登場したSoundStreamという手法によって韻律や音色などの情報を維持して音声を再構築できるようになり、2022年10月に登場したAudioLMという手法のおかげで音声生成タスクを音響トークンを生成する言語モデリングタスクとして扱うことが可能になりました。