Googleが音声生成AIの現状を解説、わずか1秒で40秒分の会話音声を生成できるも人間からは「不気味に聞こえる」と評価
Googleが自社の音声生成AIの現状の能力について、ブログ記事を投稿しました。
Pushing the frontiers of audio generation - Google DeepMind
https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/
Googleは2024年9月、論文や書籍の内容を要約してポッドキャスト風の会話音声に変換する「Illuminate」をリリースするとともに、AIを活用したメモ作成アプリ「NotebookLM」に会話音声で概要を説明する機能を追加しました。
こうした「数十秒を超える」「複数の話者が登場する」「会話が自然」などの特徴を備えた音声を生成できるようになったのは長年にわたる研究のおかげとのこと。2021年8月に登場したSoundStreamという手法によって韻律や音色などの情報を維持して音声を再構築できるようになり、2022年10月に登場したAudioLMという手法のおかげで音声生成タスクを音響トークンを生成する言語モデリングタスクとして扱うことが可能になりました。
・関連記事
Google DeepMindの研究者が解説する「正しいAIの使い方」とは? - GIGAZINE
たった数秒の音声データから音声合成が可能な「VoiceCraft」 - GIGAZINE
OpenAIがわずか15秒の音声からクローン音声を生成できるAIモデル「Voice Engine」をリリース - GIGAZINE
誰でも簡単に琴葉茜や結月ゆかりの自然な読み上げ音声を生成できる「A.I.VOICE2」レビュー - GIGAZINE
日本語を含む30以上の言語で男性と女性の声でテキストを読み上げることができる「Play 3.0 mini」 - GIGAZINE
・関連コンテンツ