AI

「Qwen3.5-Omni」が登場、文章生成・コード生成・映像認識・音声合成・ウェブ検索が可能


AlibabaのAI研究チームであるQwen(Tongyi Lab)が「Qwen3.5-Omni」を2026年3月30日に発表しました。Qwen3.5-Omniはテキスト・画像・音声・動画の理解が可能なオムニモーダルモデルで、テキストだけでなく音声も生成することが可能。音声と映像の理解能力はGemini 3.1 Proを超えているとアピールされています。

Qwen3.5-Omni: Scaling Up, Toward Native Omni-Modal AGI
https://qwen.ai/blog?id=qwen3.5-omni

Qwen-Omni - Alibaba Cloud Model Studio - Alibaba Cloud Documentation Center
https://www.alibabacloud.com/help/en/model-studio/qwen-omni

Qwen3.5-Omniは合計1億時間以上の視覚音声データを用いてトレーニングされたAIモデルです。内部には「Hybrid MoE Talker」と「Hybrid MoE Thinker」が組み込まれており、Thinkerのテキスト出力をTalkerに伝えることで文脈に応じた音声を出力することが可能です。さらに、モデルの全体がリアルタイム応答を念頭に設計されているのも特徴です。


Qwen3.5-Omniの最大シーケンス長は25万6000で、10時間の音声や400秒(1FPS)の視聴覚データを入力することができます。音声認識機能は中国語39方言に加えて日本語・英語を含む74言語に対応。さらに、音声合成は中国語7方言に加えて日本語・英語を含む29言語に対応しています。

Qwen3.5-Omniは「Qwen3.5-Omni Plus」「Qwen3.5-Omni Flash」「Qwen3.5-Omni Light」の3モデルに分かれてリリースされており、オフラインAPIとリアルタイムAPIを介して利用可能です。

「Qwen3.5-Omni Plus」「Qwen3.5-Omni Flash」「Qwen旧モデル」「Gemini 3.1 Pro」の各種ベンチマーク結果を並べた表が以下。Qwen3.5-Omni Plusは複数のテストでGemini 3.1 Proを上回っています。


Qwen3.5-Omniの視聴覚データ認識性能を示すデモ動画が以下。動画に含まれる事象をテキストで正確に説明できています。


「手書きの設計図を示しつつ目的の機能を口頭で説明する」という動画を入力して適切なコードを出力させることも可能。Tongyi Labは一連の操作を「Audio-Visual Vibe Coding」と呼称しています。


声色を調整しながら高品質な音声を生成することもできます。


Qwen3.5-Omniのデモは以下のリンクで実行できます。

Qwen3.5 Omni Offline Demo - a Hugging Face Space by Qwen
https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Offline-Demo


また、リアルタイム応答機能のデモも公開されています。

Qwen3.5 Omni Online Demo - a Hugging Face Space by Qwen
https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Online-Demo

この記事のタイトルとURLをコピーする

・関連記事
GPT-5.2と同等クラスの中華AI「Qwen3.5-397B-A17B」がオープンモデルとして登場 - GIGAZINE

Qwen 3.5シリーズの軽量版モデルが一気に4種類公開される、GPT-5 miniより高性能なオープンモデル - GIGAZINE

Qwen3.5シリーズの超小型AIモデル「Qwen3.5-0.8B」「Qwen3.5-2B」「Qwen3.5-4B」「Qwen3.5-9B」が一斉に登場 - GIGAZINE

Alibaba Qwenチームの主任研究者ら主要メンバーが突如退職 - GIGAZINE

Alibabaが多言語の音声を認識してリアルタイム会話が可能なAIモデル「Qwen3-Omni-Flash」のアップグレード版を発表 - GIGAZINE

画像生成AI「Qwen-Image-2.0」が登場、実写と文字に強くEditモデルとの統合も果たす - GIGAZINE

日本語能力を強化したAI「GPT-OSS Swallow」と「Qwen3 Swallow」を東京科学大の研究チームが公開 - GIGAZINE

in AI, Posted by log1o_hf

You can read the machine translated English article 'Qwen3.5-Omni' has been released, enabli….