ソフトウェア

人間らしい音声の合成を目指して感情の表現も可能なオープンソースの読み上げAI「StyleTTS 2」が登場


大規模音声言語モデル(SLM)と拡散モデルによる敵対的学習を利用して、人間レベルの読み上げ音声を合成できるText-to-Speech AI「StyleTTS 2」を、コロンビア大学の研究者らが開発しました。StyleTTS 2は参照する音声を必要とせず、読み上げるテキストに最適なスタイルを生成し、ネイティブスピーカーと同じくらいなめらかに英語を読み上げることが可能です。

[2306.07691] StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
https://arxiv.org/abs/2306.07691


GitHub - yl4579/StyleTTS2: StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
https://github.com/yl4579/StyleTTS2


StyleTTS 2で生成した音声は以下のデモページで聞くことができます。

Audio Samples from StyleTTS 2
https://styletts2.github.io/

デモページ冒頭ではStyleTTS 2、JETSVITSStyleTTSで合成した英語の読み上げ音声を聞くことができます。いずれもスムーズに読み上げていますが、StyleTTS 2で読み上げた音声は4種類の中で抑揚が一番しっかりとついています。一部の単語のアクセントでやや怪しい部分はあるものの、発音はなめらかでいかにも機械というような音声ではなく、本当に人間が読み上げたものであるような印象を受けます。


StyleTTS 2が合成するデフォルト音声は女性の声質で、基本的にはこの声質で音声が生成されます。さらにこの声質生成にスタイルを設定することで、読み上げ音声に「怒り」「ハッピー」「悲しい」「驚き」といった感情をのせることも可能だとのこと。


なお、ソーシャルニュースサイトのHacker Newsでは、このStyleTTS 2にWhisperやOpenHermes2-Mistral-7Bを組み合わせて、100%ローカルで動作する音声チャットボットのデモが投稿されています。ただし、動作するにはNVIDIA GPUが必要となっています。

Chirpy Personal AI - Microsoft Apps
https://apps.microsoft.com/detail/chirpy-personal-ai/9NC624PBFGB7

この記事のタイトルとURLをコピーする

・関連記事
日本語・英語・中国語でたった3秒の音声から人の声を再現可能なMicrosoftの「VALL-E-X」を独自にトレーニングしたゼロショットモデルが公開中 - GIGAZINE

Metaが開発した音声生成AI「Voicebox」は「他人の声で文章を勝手に読ませる」ことが可能、危険過ぎるのでMetaは一般公開を避ける - GIGAZINE

BingのチャットAIが日本語での音声入力に対応、実際にマイクでAIに質問してみた - GIGAZINE

1100以上の言語で音声からの文字起こしや文章の読み上げが可能な音声認識モデル「Massively Multilingual Speech(MMS)」をMetaが発表 - GIGAZINE

Appleが「送信者の声でiMessageを読み上げる機能」の特許を出願 - GIGAZINE

声優に「録音した音声でAIに合成音声を生成させることを認める」契約を迫るケースが増加、声優や組合からは反対の声 - GIGAZINE

in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article here.