Googleが「Gemini 3.1 Flash Live」発表、リアルタイム対話向けに遅延を低減した音声モデルでSynthIDによる電子透かしも採用、音声とカメラを使う「検索Live」も日本を含む世界各地で提供開始

GoogleがGeminiのリアルタイム音声生成AIモデル「Gemini 3.1 Flash Live」を2026年3月26日に発表しました。Googleは「これまでで最高品質のオーディオおよび音声モデルです。さらに日本を含むAIモードが利用可能なすべての言語と地域において、音声とカメラの両方を検索できる「検索Live」をグローバルに展開することも明らかにされました。
Gemini 3.1 Flash Live: Google’s latest AI audio model
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-live/
Google Search Live expands globally
https://blog.google/products-and-platforms/products/search/search-live-global-expansion/
Gemini 3.1 Flash Live is our highest-quality audio and voice model yet.
— Sundar Pichai (@sundarpichai) March 26, 2026
Voice capabilities have come a long way and are a big part of how we interact with AI to get things done. 3.1 Flash Live’s improved precision and reasoning make those interactions more natural and intuitive.… pic.twitter.com/Ib1Y6uH80i
Gemini 3.1 Flash Liveは記事作成時点で、検索LiveとGemini Libeを通じて誰でも利用可能。また、開発者はGoogle AI StudioのGemini Live APIをプレビューで利用できるほか、企業はGemini Enterprise for Customer Experienceを通じて利用することも可能です。
GoogleはGemini 3.1 Flash Liveについて、「全体的な品質が向上し、開発者や企業が複雑なタスクを大規模に実行できる音声ファーストのエージェントを構築する際に、より信頼性の高いものとなった」と評価しています。
さまざまな制約条件の下で複数ステップの関数呼び出しを捉えるベンチマークであるComplexFuncBench Audioでは、以前のモデルであるGemini 2.5 Flash Native Audio 12-2025と比較して90.8%というスコアを獲得し、トップの成績を収めたとのこと。

音声入力からの論理的思考や判断能力を測定するBig Bench Audioの結果は以下の通り。Gemini 3.1 Flash Live(思考モード:High)は95.9%のスコアで、Gemini 2.5 Flash Native Audio 12-2025(思考モード:High)から大きく向上。また、Gemini 3.1 Flash Liveを思考モードをMinimal(最小)に設定すると70.5%でした。

Scale AIのAudio MultiChallengeにおいて、Gemini 3.1 Flash Liveは「思考」機能をオンにした状態で36.1%のスコアを獲得し、トップに立っています。このベンチマークは、実際の音声にありがちな言いよどみや中断の中で、複雑な指示に従う能力や長期的な推論能力を具体的にテストするものです。

Googleによれば、Gemini 3.1 Flash Liveは音色の理解能力が向上し、より自然な対話を実現しているとのこと。Gemini Enterprise for Customer Experienceでは、Gemini 3.1 Flash Liveは2.5 Flash Native Audioよりも音の高さやペースといった音響的なニュアンスをより効果的に認識し、ユーザーの不満や混乱といった感情表現に対して、より動的に反応を調整する能力も向上しているそうです。
Say hello to Gemini 3.1 Flash Live. ????️
— Google DeepMind (@GoogleDeepMind) March 26, 2026
Our latest audio model delivers more natural conversations with improved function calling – making it more useful and informed. Here’s what’s new ???? pic.twitter.com/uv8cW447kE
Gemini Liveと検索LiveではGemini 3.1 Flash Liveによって、簡単な日常的な質問をする場合でも、より複雑な会話をする場合でも、より自然な応答が得られるようになったとのこと。特にGemini Liveでは内部にモデルを搭載しているため、従来モデルに比べて応答速度が向上し、会話の流れを2倍長く追跡できるようになり、長時間のブレインストーミングでも思考の流れを途切れさせることなく進めることができるとGoogleはアピールしました。
また、これまでアメリカとインドでのみ提供されていた検索Liveが、日本を含めた「AIモードが利用可能なすべての言語と地域」で提供されました。Search Liveを利用するには、AndroidまたはiOSのGoogleアプリを開き、検索バーの下にあるLiveアイコンをタップするだけでOKです。
検索 Live、グローバル展開を開始 - YouTube

なおGoogleによれば、3.1 Flash Liveで生成されるすべての音声には、SynthIDによる電子透かしが入っているとのこと。この目に見えない電子透かしは音声出力に直接埋め込まれており、AI生成コンテンツを確実に検出して誤情報の拡散を防ぐのに役立つとGoogleは述べています。
・関連記事
日本語を含む10言語に対応した音声生成モデル「Qwen3-TTS」ファミリーがオープンソース化 - GIGAZINE
Alibabaが多言語の音声を認識してリアルタイム会話が可能なAIモデル「Qwen3-Omni-Flash」のアップグレード版を発表 - GIGAZINE
Alibabaがリアルタイムで音声会話できるAIモデル「Qwen3-Omni」やGPT-5と同等性能の画像認識AIモデル「Qwen3-VL」を公開、他にも言語モデルや画像編集モデルを一挙大量公開 - GIGAZINE
OpenAIが最も先進的な音声対話モデル「gpt-realtime」を公開、「Realtime API」も正式版に - GIGAZINE
GoogleのGemini 2.5で日本語を含む多言語の音声生成が可能に - GIGAZINE
・関連コンテンツ
You can read the machine translated English article Google has announced 'Gemini 3.1 Flash L….







