AlibabaがGPT-5.2と同等性能の推論AIモデル「Qwen3-Max-Thinking」を発表

中国のIT大手・Alibaba(阿里巴巴)の開発するオープンソース大規模言語モデル「Qwen」シリーズに、新しくフラッグシップ推論モデル「Qwen3-Max-Thinking」が加わりました。
Pushing Qwen3-Max-Thinking Beyond its Limits
https://qwen.ai/blog?id=qwen3-max-thinking

Qwenチームによると、「Qwen3-Max-Thinking」はモデルパラメーターを拡張し、強化学習のために大量の計算リソースを活用することで、事実に基づく知識や複雑な推論、指示追従、人間の好みとの整合性、エージェント機能など、複数の面でパフォーマンスが大幅に向上しているとのこと。
以下は「GPT-5.2-Thinking」「Claude-Opus-4.5」「Gemini 3 Pro」「DeepSeek V3.2」「Qwen3-Max-Thinking」の5つのモデルのベンチマークスコアを示した表です。「Qwen3-Max-Thinking」は中国語評価テストの「C-Eval」や数学の推論ベンチマーク「HMMT 25」(2025年11月版)、広い分野の問題を詰め込んだ「HLE(人類最後の試験)」、「Arena Hard v2」でトップのスコアを獲得しているほか、他のテストでも4つのモデルに匹敵するスコアとなっています。
| ベンチマークテスト | GPT-5.2 -Thinking | Claude-Opus -4.5 | Gemini 3 Pro | DeepSeek V3.2 | Qwen3-Max -Thinking | |
|---|---|---|---|---|---|---|
| 知識 | MMLU-Pro | 87.4 | 89.5 | 89.8 | 85.0 | 85.7 |
| MMLU-Redux | 95.0 | 95.6 | 95.9 | 94.5 | 92.8 | |
| C-Eval | 90.5 | 92.2 | 93.4 | 92.9 | 93.7 | |
| STEM(科学・技術・工学・数学) | GPQA | 92.4 | 87.0 | 91.9 | 82.4 | 87.4 |
| HLE | 35.5 | 30.8 | 37.5 | 25.1 | 30.2 | |
| 推論 | LiveCodeBench v6 | 87.7 | 84.8 | 90.7 | 80.8 | 85.9 |
| HMMT Feb 25 | 99.4 | - | 97.5 | 92.5 | 98.0 | |
| HMMT Nov 25 | - | - | 93.3 | 90.2 | 94.7 | |
| IMOAnswerBench | 86.3 | 84.0 | 83.3 | 78.3 | 83.9 | |
| エージェンティックコーディング | SWE Verified | 80.0 | 80.9 | 76.2 | 73.1 | 75.3 |
| エージェンティック検索 | HLE (w/ tools) | 45.5 | 43.2 | 45.8 | 40.8 | 49.8 |
| 指示追従&整合性 | IFBench | 75.4 | 58.0 | 70.4 | 60.7 | 70.9 |
| MultiChallenge | 57.9 | 54.2 | 64.2 | 47.3 | 63.3 | |
| Arena-Hard v2 | 80.6 | 76.7 | 81.7 | 66.5 | 90.2 | |
| ツール実行 | Tau² Bench | 80.9 | 85.7 | 85.4 | 80.3 | 82.1 |
| BFCL-V4 | 63.1 | 77.5 | 72.5 | 61.2 | 67.7 | |
| Vita Bench | 38.2 | 56.3 | 51.6 | 44.1 | 40.9 | |
| Deep Planning | 44.6 | 33.9 | 23.3 | 21.6 | 28.7 | |
| ロングコンテキスト | AA-LCR | 72.7 | 74.0 | 70.7 | 65.0 | 68.7 |
さっそく「Qwen Chat」ではQwen3-Max-Thinkingが利用可能となったほか、Alibaba Cloudのアカウントを持っていてAlibaba Cloud Model Studioのサービスをアクティブ化すると、「Qwen3-Max-Thinking」(qwen3-max-2026-01-23)のAPIキーが作成可能だとのことです。
・関連記事
日本語を含む10言語に対応した音声生成モデル「Qwen3-TTS」ファミリーがオープンソース化 - GIGAZINE
AIっぽくない実写風画像を作れる画像生成AI「Qwen-Image-2512」が登場、無料で使えて日本語での指示も可能 - GIGAZINE
Alibabaが多言語の音声を認識してリアルタイム会話が可能なAIモデル「Qwen3-Omni-Flash」のアップグレード版を発表 - GIGAZINE
コスパの高いAIモデル「Qwen3-Next」登場、従来より10倍高速で同等以上の性能を実現 - GIGAZINE
オープンソースのAIモデル「Qwen3-235B-A22B-Thinking-2507」が公開され主要ベンチマークでOpenAIやGoogleのAIモデルを上回るパフォーマンスを叩き出す - GIGAZINE
中国共産党は中国製高性能AIを支配体制の脅威と認識し検閲を実施している - GIGAZINE
・関連コンテンツ
in AI, Posted by logc_nt
You can read the machine translated English article Alibaba Announces Qwen3-Max-Thinking, an….







