AI

Alibabaが多言語の音声を認識してリアルタイム会話が可能なAIモデル「Qwen3-Omni-Flash」のアップグレード版を発表


中国の大手テクノロジー企業・AlibabaのAI研究チームである「Qwen」が、多言語の音声を認識してリアルタイムの会話が可能なAIモデル「Qwen3-Omni-Flash」のアップグレード版である「Qwen3-Omni-Flash-2025-12-01」を発表しました。

Qwen3-Omni-Flash-2025-12-01:Hear You. See You. Follow Smarter!
https://qwen.ai/blog?id=qwen3-omni-flash-20251201

今回発表されたQwen3-Omni-Flash-2025-12-01は、テキスト・画像・音声・動画を処理してリアルタイムでの音声会話が可能なマルチモーダルAIモデル「Qwen3-Omni-Flash」のパフォーマンスと効率を向上させたアップグレード版です。Qwen3-Omni-Flash-2025-12-01の特徴は以下の通り。

・大幅に強化されたオーディオビジュアルインタラクション
音声および視覚的支持の理解と実行能力が劇的に向上し、日常会話で頻発する知能低下問題が効果的に解決されています。複数ターンのやり取りにわたる音声・視覚による会話の安定性と一貫性が大幅に向上し、より自然でシームレスな対話が可能になりました。

・強化されたシステムプロンプト制御
システムプロンプトの完全なカスタマイズにより、モデルの挙動を正確に制御できるようになりました。ユーザーはAIモデルの人格や口調、出力の長さまで細かく調整できるとのことです。


・多言語対応の信頼性向上
テキストベースのやり取りでは119言語、ユーザーが話す音声理解では19言語、AIが出力する合成音声出力では10言語に対応しています。以前のバージョンに存在した言語追従の不安定性に対処し、多様な言語的文脈にわたり、正確で一貫したパフォーマンスが保証されています。


・より人間らしく流ちょうな合成音声
韻律の適応制御を大幅に強化することで、ぎこちなかったりロボット感が強かったりする話し方が解消されています。文脈に基づいた話し方の速度、言葉の間、抑揚を調整することで、表現力豊かで自然な音声出力を実現しているとのこと。

さらにQwen3-Omni-Flash-2025-12-01では、論理的な推論能力やコード生成能力も改善されているほか、映像や画像による入力に基づいたタスクのパフォーマンスも向上しています。これらのアップグレードにより、これまで以上にユーザーの声を聞き、その姿を見て、スマートにフォローするAIモデルが実現したとされています。

テキスト・オーディオ・音声生成・画像・動画に関するベンチマークのスコアを、Qwen3-Omni-Flash-2025-12-01と以前のQwen3-Omni-Flashで比較してみるとこんな感じ。ほとんどの項目で、Qwen3-Omni-Flash-2025-12-01がより優れたパフォーマンスを発揮することがわかります。


Qwen3-Omni-Flash-2025-12-01でリアルタイム音声会話をする様子は、以下のYouTube動画で確認できます。

Qwen3-Omni-Flash just got a massive upgrade (2025-12-01 version) ! - YouTube


Qwen3-Omni-Flash-2025-12-01に父親が買ってきたというゲーム機、電子ピアノ、ギターを順に映像で見せた後で、「2番目の物についての短い説明を中国語・フランス語・ドイツ語でしてもらえますか?」と尋ねます。


すると、Qwen3-Omni-Flash-2025-12-01はすぐに電子ピアノについての説明を3カ国後で行いました。このように、Qwen3-Omni-Flash-2025-12-01は余計な情報に惑わされずに文脈を理解し、多言語で応じることが可能です。


また、Qwen3-Omni-Flash-2025-12-01は人狼ゲームのようにゲームマスターが必要な遊びをする際に、まるで人間のようにゲームマスターの役割を担うこともできます。


ゲームの最中、「プレイヤーのうち誰を殺すのかを指さしで伝える」といった行為が発生しても、Qwen3-Omni-Flash-2025-12-01は間違えることなく殺された男性を特定できました。


Qwen3-Omni-Flash-2025-12-01に果物の種類と値札を見せて、合計額を計算してもらうことも可能。


また、会話の中で果物の効果について尋ねても、Qwen3-Omni-Flash-2025-12-01は混乱することなく回答しました。


さらに、「部屋のどこかでスマートフォンの音が鳴っているが、本体がどこにあるかわからない」といった状況で、Qwen3-Omni-Flash-2025-12-01は音と映像を頼りにスマートフォンの場所を探し当てました。

この記事のタイトルとURLをコピーする

・関連記事
Alibabaがリアルタイムで音声会話できるAIモデル「Qwen3-Omni」やGPT-5と同等性能の画像認識AIモデル「Qwen3-VL」を公開、他にも言語モデルや画像編集モデルを一挙大量公開 - GIGAZINE

画像認識AIモデル「Qwen3-VL」の軽量版が登場したので使ってみた、低いVRAM使用量で高性能を実現 - GIGAZINE

Alibabaの視覚言語AIモデル「Qwen3-VL」は2時間ある映像に挿入されたフレームを99.5%の精度で特定可能 - GIGAZINE

GPT-4oやo1より高性能な推論モデル「Qwen3」をAlibabaが発表、フラグシップモデルの「Qwen3-235B-A22B」はパラメーター数2350億&アクティブパラメーター数220億 - GIGAZINE

コスパの高いAIモデル「Qwen3-Next」登場、従来より10倍高速で同等以上の性能を実現 - GIGAZINE

日本語を含む11言語に対応する高精度な自動文字起こしAIモデル「Qwen3-ASR-Flash」をAlibabaの開発チームが発表 - GIGAZINE

キャラクターを維持したまま別のシチュエーションに描き直せる画像編集AI「Qwen-Image-Edit」が登場、文字の描き直しや「被写体の回転」も可能 - GIGAZINE

オープンソースのAIモデル「Qwen3-235B-A22B-Thinking-2507」が公開され主要ベンチマークでOpenAIやGoogleのAIモデルを上回るパフォーマンスを叩き出す - GIGAZINE

Claude Sonnet 4に匹敵するコーディング特化のオープンモデル「Qwen3-Coder」をAlibabaが発表 - GIGAZINE

in AI,   動画, Posted by log1h_ik

You can read the machine translated English article Alibaba announces an upgraded version of….