日本語を含む10言語に対応した音声生成モデル「Qwen3-TTS」ファミリーがオープンソース化

Alibaba CloudのQwenチームが、音声合成モデル「Qwen3-TTS」ファミリーをオープンソースとして公開しました。Qwen3-TTSはテキストから自然で人間らしい音声を生成するだけでなく、説明文から新しい声を作るボイスデザインや、手元の短い音声から話者の声質を複製するボイスクローンまでを、同一系列のモデルとしてまとめて提供するのが特徴です。リポジトリはApache-2.0ライセンスで公開されています。
Qwen3-TTS Family is Now Open Sourced: Voice Design, Clone, and Generation!
https://qwen.ai/blog?id=qwen3tts-0115

QwenLM/Qwen3-TTS: Qwen3-TTS is an open-source series of TTS models developed by the Qwen team at Alibaba Cloud, supporting stable, expressive, and streaming speech generation, free-form voice design, and vivid voice cloning.
https://github.com/QwenLM/Qwen3-TTS
Qwen3-TTS - a Qwen Collection
https://huggingface.co/collections/Qwen/qwen3-tts?spm=a2ty_o06.30285417.0.0.29947896M5IzkF
Qwen3-TTSファミリーは2025年9月に発表された音声生成モデルで、フローマッチング(Flow-matching)を基盤とした生成AI技術を採用し、従来のモデルを凌駕する滑らかで自然な音声生成を可能にしているのが特徴。
Alibabaがリアルタイムで音声会話できるAIモデル「Qwen3-Omni」やGPT-5と同等性能の画像認識AIモデル「Qwen3-VL」を公開、他にも言語モデルや画像編集モデルを一挙大量公開 - GIGAZINE

Qwen3-TTSファミリーは12Hzのトークナイザーによる音声表現を土台に、ストリーミングと非ストリーミングの両方を単一モデルで扱える「Dual-Track」型の音声生成が可能で、1文字の入力後すぐに最初の音声パケットを出力でき、合成のエンドツーエンド遅延が最小97msに達するとのこと。つまり、リアルタイム対話のような用途を強く意識した設計だと言えます。

Qwen3-TTSファミリーのモデル系統には、VoiceDesign、CustomVoice、Baseの3系統。
VoiceDesignは「落ち着いた低めの声」「明るい若年の話し方」といった自然言語の指示に基づいて声を設計するためのモデルで、音色や感情、韻律といった複数の属性を指示で制御できることを狙っています。
CustomVoiceは指示に応じたスタイル制御を行い、性別や年齢、言語や方言の組み合わせを含む9種類のプリセット声質が用意されています。
Baseはユーザーの入力音声から約3秒で素早くボイスクローンを行える土台モデルで、追加のファインチューニング用途にも使える位置づけです。
モデル規模としては、パラメーター数に応じて1.7B(17億)と0.6B(60億)が存在しており、トークナイザーとして「Qwen3-TTS-Tokenizer-12Hz」も合わせて公開されています。対応言語は中国語、英語、日本語、韓国語、ドイツ語、フランス語、ロシア語、ポルトガル語、スペイン語、イタリア語の10言語で、複数の方言系のボイスプロファイルも扱うとのこと。
Qwen3-TTSはApache-2.0ライセンスの下で、TTSモデルのQwen3-TTS-12Hz-1.7B-VoiceDesign、1.7B-CustomVoice、1.7B-Base、0.6B-CustomVoice、0.6B-Base、そして音声をコード化してエンコードとデコードを行うQwen3-TTS-Tokenizer-12Hzがオープンソースとして公開されています。Qwen3-TTSのモデル本体のほか、examplesやfinetuning、assetsといったディレクトリが含まれており、推論実行や学習、周辺素材をまとめて取り扱う前提で整備されています。
また、Qwen3-TTSのデモはHugging Faceの以下ページで公開されています。
Qwen3-TTS Demo - a Hugging Face Space by Qwen
https://huggingface.co/spaces/Qwen/Qwen3-TTS?spm=a2ty_o06.30285417.0.0.2994c921Jx9tMq
・関連記事
AIっぽくない実写風画像を作れる画像生成AI「Qwen-Image-2512」が登場、無料で使えて日本語での指示も可能 - GIGAZINE
画像生成&編集AI「Qwen-Image-Edit-2511」登場、人物やオブジェクトの一貫性が向上&人気LoRAを内蔵してさらに高品質化 - GIGAZINE
Alibabaが多言語の音声を認識してリアルタイム会話が可能なAIモデル「Qwen3-Omni-Flash」のアップグレード版を発表 - GIGAZINE
Alibabaの視覚言語AIモデル「Qwen3-VL」は2時間ある映像に挿入されたフレームを99.5%の精度で特定可能 - GIGAZINE
画像認識AIモデル「Qwen3-VL」の軽量版が登場したので使ってみた、低いVRAM使用量で高性能を実現 - GIGAZINE
・関連コンテンツ
in AI, Posted by log1i_yk
You can read the machine translated English article The Qwen3-TTS family of speech generatio….







