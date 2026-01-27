AlibabaがGPT-5.2と同等性能の推論AIモデル「Qwen3-Max-Thinking」を発表
中国のIT大手・Alibaba(阿里巴巴)の開発するオープンソース大規模言語モデル「Qwen」シリーズに、新しくフラッグシップ推論モデル「Qwen3-Max-Thinking」が加わりました。
Pushing Qwen3-Max-Thinking Beyond its Limits
https://qwen.ai/blog?id=qwen3-max-thinking
Qwenチームによると、「Qwen3-Max-Thinking」はモデルパラメーターを拡張し、強化学習のために大量の計算リソースを活用することで、事実に基づく知識や複雑な推論、指示追従、人間の好みとの整合性、エージェント機能など、複数の面でパフォーマンスが大幅に向上しているとのこと。
以下は「GPT-5.2-Thinking」「Claude-Opus-4.5」「Gemini 3 Pro」「DeepSeek V3.2」「Qwen3-Max-Thinking」の5つのモデルのベンチマークスコアを示した表です。「Qwen3-Max-Thinking」は中国語評価テストの「C-Eval」や数学の推論ベンチマーク「HMMT 25」(2025年11月版)、広い分野の問題を詰め込んだ「HLE(人類最後の試験)」、「Arena Hard v2」でトップのスコアを獲得しているほか、他のテストでも4つのモデルに匹敵するスコアとなっています。
|ベンチマークテスト
|GPT-5.2
-Thinking
|Claude-Opus
-4.5
|Gemini 3 Pro
|DeepSeek V3.2
|Qwen3-Max
-Thinking
|知識
|MMLU-Pro
|87.4
|89.5
|89.8
|85.0
|85.7
|MMLU-Redux
|95.0
|95.6
|95.9
|94.5
|92.8
|C-Eval
|90.5
|92.2
|93.4
|92.9
|93.7
|STEM(科学・技術・工学・数学)
|GPQA
|92.4
|87.0
|91.9
|82.4
|87.4
|HLE
|35.5
|30.8
|37.5
|25.1
|30.2
|推論
|LiveCodeBench v6
|87.7
|84.8
|90.7
|80.8
|85.9
|HMMT Feb 25
|99.4
|-
|97.5
|92.5
|98.0
|HMMT Nov 25
|-
|-
|93.3
|90.2
|94.7
|IMOAnswerBench
|86.3
|84.0
|83.3
|78.3
|83.9
|エージェンティックコーディング
|SWE Verified
|80.0
|80.9
|76.2
|73.1
|75.3
|エージェンティック検索
|HLE (w/ tools)
|45.5
|43.2
|45.8
|40.8
|49.8
|指示追従＆整合性
|IFBench
|75.4
|58.0
|70.4
|60.7
|70.9
|MultiChallenge
|57.9
|54.2
|64.2
|47.3
|63.3
|Arena-Hard v2
|80.6
|76.7
|81.7
|66.5
|90.2
|ツール実行
|Tau² Bench
|80.9
|85.7
|85.4
|80.3
|82.1
|BFCL-V4
|63.1
|77.5
|72.5
|61.2
|67.7
|Vita Bench
|38.2
|56.3
|51.6
|44.1
|40.9
|Deep Planning
|44.6
|33.9
|23.3
|21.6
|28.7
|ロングコンテキスト
|AA-LCR
|72.7
|74.0
|70.7
|65.0
|68.7
さっそく「Qwen Chat」ではQwen3-Max-Thinkingが利用可能となったほか、Alibaba Cloudのアカウントを持っていてAlibaba Cloud Model Studioのサービスをアクティブ化すると、「Qwen3-Max-Thinking」(qwen3-max-2026-01-23)のAPIキーが作成可能だとのことです。
・関連記事
日本語を含む10言語に対応した音声生成モデル「Qwen3-TTS」ファミリーがオープンソース化 - GIGAZINE
AIっぽくない実写風画像を作れる画像生成AI「Qwen-Image-2512」が登場、無料で使えて日本語での指示も可能 - GIGAZINE
Alibabaが多言語の音声を認識してリアルタイム会話が可能なAIモデル「Qwen3-Omni-Flash」のアップグレード版を発表 - GIGAZINE
コスパの高いAIモデル「Qwen3-Next」登場、従来より10倍高速で同等以上の性能を実現 - GIGAZINE
オープンソースのAIモデル「Qwen3-235B-A22B-Thinking-2507」が公開され主要ベンチマークでOpenAIやGoogleのAIモデルを上回るパフォーマンスを叩き出す - GIGAZINE
中国共産党は中国製高性能AIを支配体制の脅威と認識し検閲を実施している - GIGAZINE
・関連コンテンツ
in AI, Posted by logc_nt
You can read the machine translated English article Alibaba Announces Qwen3-Max-Thinking, an….