2025年12月12日 08時00分 AI

Alibabaが多言語の音声を認識してリアルタイム会話が可能なAIモデル「Qwen3-Omni-Flash」のアップグレード版を発表



中国の大手テクノロジー企業・AlibabaのAI研究チームである「Qwen」が、多言語の音声を認識してリアルタイムの会話が可能なAIモデル「Qwen3-Omni-Flash」のアップグレード版である「Qwen3-Omni-Flash-2025-12-01」を発表しました。



Qwen3-Omni-Flash-2025-12-01：Hear You. See You. Follow Smarter!

https://qwen.ai/blog?id=qwen3-omni-flash-20251201



今回発表されたQwen3-Omni-Flash-2025-12-01は、テキスト・画像・音声・動画を処理してリアルタイムでの音声会話が可能なマルチモーダルAIモデル「Qwen3-Omni-Flash」のパフォーマンスと効率を向上させたアップグレード版です。Qwen3-Omni-Flash-2025-12-01の特徴は以下の通り。



・大幅に強化されたオーディオビジュアルインタラクション

音声および視覚的支持の理解と実行能力が劇的に向上し、日常会話で頻発する知能低下問題が効果的に解決されています。複数ターンのやり取りにわたる音声・視覚による会話の安定性と一貫性が大幅に向上し、より自然でシームレスな対話が可能になりました。



・強化されたシステムプロンプト制御

システムプロンプトの完全なカスタマイズにより、モデルの挙動を正確に制御できるようになりました。ユーザーはAIモデルの人格や口調、出力の長さまで細かく調整できるとのことです。





・多言語対応の信頼性向上

テキストベースのやり取りでは119言語、ユーザーが話す音声理解では19言語、AIが出力する合成音声出力では10言語に対応しています。以前のバージョンに存在した言語追従の不安定性に対処し、多様な言語的文脈にわたり、正確で一貫したパフォーマンスが保証されています。





・より人間らしく流ちょうな合成音声

韻律の適応制御を大幅に強化することで、ぎこちなかったりロボット感が強かったりする話し方が解消されています。文脈に基づいた話し方の速度、言葉の間、抑揚を調整することで、表現力豊かで自然な音声出力を実現しているとのこと。



さらにQwen3-Omni-Flash-2025-12-01では、論理的な推論能力やコード生成能力も改善されているほか、映像や画像による入力に基づいたタスクのパフォーマンスも向上しています。これらのアップグレードにより、これまで以上にユーザーの声を聞き、その姿を見て、スマートにフォローするAIモデルが実現したとされています。



テキスト・オーディオ・音声生成・画像・動画に関するベンチマークのスコアを、Qwen3-Omni-Flash-2025-12-01と以前のQwen3-Omni-Flashで比較してみるとこんな感じ。ほとんどの項目で、Qwen3-Omni-Flash-2025-12-01がより優れたパフォーマンスを発揮することがわかります。





Qwen3-Omni-Flash-2025-12-01でリアルタイム音声会話をする様子は、以下のYouTube動画で確認できます。



Qwen3-Omni-Flash just got a massive upgrade (2025-12-01 version) ! - YouTube





Qwen3-Omni-Flash-2025-12-01に父親が買ってきたというゲーム機、電子ピアノ、ギターを順に映像で見せた後で、「2番目の物についての短い説明を中国語・フランス語・ドイツ語でしてもらえますか？」と尋ねます。





すると、Qwen3-Omni-Flash-2025-12-01はすぐに電子ピアノについての説明を3カ国後で行いました。このように、Qwen3-Omni-Flash-2025-12-01は余計な情報に惑わされずに文脈を理解し、多言語で応じることが可能です。





また、Qwen3-Omni-Flash-2025-12-01は人狼ゲームのようにゲームマスターが必要な遊びをする際に、まるで人間のようにゲームマスターの役割を担うこともできます。





ゲームの最中、「プレイヤーのうち誰を殺すのかを指さしで伝える」といった行為が発生しても、Qwen3-Omni-Flash-2025-12-01は間違えることなく殺された男性を特定できました。





Qwen3-Omni-Flash-2025-12-01に果物の種類と値札を見せて、合計額を計算してもらうことも可能。





また、会話の中で果物の効果について尋ねても、Qwen3-Omni-Flash-2025-12-01は混乱することなく回答しました。





さらに、「部屋のどこかでスマートフォンの音が鳴っているが、本体がどこにあるかわからない」といった状況で、Qwen3-Omni-Flash-2025-12-01は音と映像を頼りにスマートフォンの場所を探し当てました。

