Googleが日本語対応の音声合成AI「Gemini 3.1 Flash TTS」をリリースしたので使ってみた、音声タグで感情を制御可能

Googleが合成音声AI「Gemini 3.1 Flash TTS」を2026年4月15日にリリースしました。Gemini 3.1 Flash TTSは日本語を70以上の言語に対応しており、感情を制御しつつ高品質な音声を出力することができます。無料で使えるデモアプリも用意されていたので実際に使ってみました。
Gemini 3.1 Flash TTS: New text-to-speech AI model
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/
Gemini 3.1 Flash TTS(テキスト読み上げ)プレビュー | Gemini API | Google AI for Developers
https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview?hl=ja
Gemini 3.1 Flash TTSはテキストを入力して音声を出力できる音声合成AIです。日本語を含む70以上の言語に対応しており、第三者機関のArtificial Analysisが実行したテストでは業界最高クラスの品質で音声を合成できることが確認されています。
以下の図はArtificial Analysisが検証した各種音声合成AIのコストパフォーマンスを示したもので、横軸がAPI利用価格、縦軸が品質スコアを示しています。Gemini 3.1 Flash TTSが安価かつ高性能なモデルであることがよく分かります。

Gemini 3.1 Flash TTSを使える無料デモが公開されていたので、実際に音声を合成してみます。まず、以下のリンクをクリックしてデモサイトにアクセスします。
generate-speech | Google AI Studio
https://aistudio.google.com/generate-speech

赤枠で囲った「Turn text into natural-sounding speech」と記された部分をクリック。

プロンプト入力画面が表示されたら上から順に「シーン」「文脈」「しゃべらせる内容」を入力して右下の実行ボタンをクリックします。

数秒で音声が合成され、画面下部に再生ボタンとシークバーが表示されました。

以下の動画を再生すると出力された音声を確認できます。特に指定せずとも感情や抑揚を再現した高品質な音声が合成されました。
Googleの音声合成AIでライブ配信者っぽい音声データを作成してみた - YouTube

Gemini 3.1 Flash TTSでは「音声タグ」を用いて感情を指定することができます。音声タグは「[amazed]」「[crying]」といったように英語で指定すればOK。使用可能なタグは特に定まっておらず、英語で感情を記せば大体通るそうです。
実際に「[whispers](ささやき)」「[laughs](笑い)」「[shouting](叫び)」という音声タグを追加して音声を合成してみます。

合成結果は以下の通り。指示に忠実な音声が出力されました。
Googleの音声合成AIでライブ配信者っぽい音声データを作成してみた【感情制御版】 - YouTube

Gemini 3.1 Flash TTSで生成した音声データにはAI生成コンテンツであることを示すSynthIDが埋め込まれます。また、Gemini 3.1 Flash TTSの仕様を記したモデルカードが以下のリンク先で公開されています。
Gemini 3.1 Flash Audio (Flash Live, TTS) - Model Card — Google DeepMind
https://deepmind.google/models/model-cards/gemini-3-1-flash-audio/
・関連記事
「Qwen3.5-Omni」が登場、文章生成・コード生成・映像認識・音声合成・ウェブ検索が可能 - GIGAZINE
Mistral AIが自分の声をクローンして使えるテキスト音声合成AIモデル「Voxtral TTS」を発表、9言語に対応し爆速読み上げ&軽量&オープンソースで利用可能 - GIGAZINE
無料で日本語もサポートしリアルタイム音声アプリをWhisperより高精度で開発できるオープンソースAIツールキット「Moonshine Voice」 - GIGAZINE
完全無料で誰でも簡単に感情豊かな音声合成ができる「AivisSpeech」レビュー - GIGAZINE
・関連コンテンツ
in AI, 動画, レビュー, Posted by log1o_hf
You can read the machine translated English article Google has released Gemini 3.1 Flash TTS….







