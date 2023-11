2023年11月22日 09時45分 ソフトウェア

人間らしい音声の合成を目指して感情の表現も可能なオープンソースの読み上げAI「StyleTTS 2」が登場



大規模音声言語モデル(SLM)と拡散モデルによる敵対的学習を利用して、人間レベルの読み上げ音声を合成できるText-to-Speech AI「StyleTTS 2」を、コロンビア大学の研究者らが開発しました。StyleTTS 2は参照する音声を必要とせず、読み上げるテキストに最適なスタイルを生成し、ネイティブスピーカーと同じくらいなめらかに英語を読み上げることが可能です。



[2306.07691] StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

https://arxiv.org/abs/2306.07691





GitHub - yl4579/StyleTTS2: StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

https://github.com/yl4579/StyleTTS2





StyleTTS 2で生成した音声は以下のデモページで聞くことができます。



Audio Samples from StyleTTS 2

https://styletts2.github.io/



デモページ冒頭ではStyleTTS 2、JETS、VITS、StyleTTSで合成した英語の読み上げ音声を聞くことができます。いずれもスムーズに読み上げていますが、StyleTTS 2で読み上げた音声は4種類の中で抑揚が一番しっかりとついています。一部の単語のアクセントでやや怪しい部分はあるものの、発音はなめらかでいかにも機械というような音声ではなく、本当に人間が読み上げたものであるような印象を受けます。





StyleTTS 2が合成するデフォルト音声は女性の声質で、基本的にはこの声質で音声が生成されます。さらにこの声質生成にスタイルを設定することで、読み上げ音声に「怒り」「ハッピー」「悲しい」「驚き」といった感情をのせることも可能だとのこと。





なお、ソーシャルニュースサイトのHacker Newsでは、このStyleTTS 2にWhisperやOpenHermes2-Mistral-7Bを組み合わせて、100%ローカルで動作する音声チャットボットのデモが投稿されています。ただし、動作するにはNVIDIA GPUが必要となっています。



Chirpy Personal AI - Microsoft Apps

https://apps.microsoft.com/detail/chirpy-personal-ai/9NC624PBFGB7