AI

AlibabaがGPT-5.2と同等性能の推論AIモデル「Qwen3-Max-Thinking」を発表


中国のIT大手・Alibaba(阿里巴巴)の開発するオープンソース大規模言語モデル「Qwen」シリーズに、新しくフラッグシップ推論モデル「Qwen3-Max-Thinking」が加わりました。

Pushing Qwen3-Max-Thinking Beyond its Limits
https://qwen.ai/blog?id=qwen3-max-thinking


Qwenチームによると、「Qwen3-Max-Thinking」はモデルパラメーターを拡張し、強化学習のために大量の計算リソースを活用することで、事実に基づく知識や複雑な推論、指示追従、人間の好みとの整合性、エージェント機能など、複数の面でパフォーマンスが大幅に向上しているとのこと。

以下は「GPT-5.2-Thinking」「Claude-Opus-4.5」「Gemini 3 Pro」「DeepSeek V3.2」「Qwen3-Max-Thinking」の5つのモデルのベンチマークスコアを示した表です。「Qwen3-Max-Thinking」は中国語評価テストの「C-Eval」や数学の推論ベンチマーク「HMMT 25」(2025年11月版)、広い分野の問題を詰め込んだ「HLE(人類最後の試験)」、「Arena Hard v2」でトップのスコアを獲得しているほか、他のテストでも4つのモデルに匹敵するスコアとなっています。

 ベンチマークテストGPT-5.2
-Thinking
Claude-Opus
-4.5
Gemini 3 ProDeepSeek V3.2Qwen3-Max
-Thinking
知識MMLU-Pro87.489.589.885.085.7
MMLU-Redux95.095.695.994.592.8
C-Eval90.592.293.492.993.7
STEM(科学・技術・工学・数学)GPQA92.487.091.982.487.4
HLE35.530.837.525.130.2
推論LiveCodeBench v687.784.890.780.885.9
HMMT Feb 2599.4-97.592.598.0
HMMT Nov 25--93.390.294.7
IMOAnswerBench86.384.083.378.383.9
エージェンティックコーディングSWE Verified80.080.976.273.175.3
エージェンティック検索HLE (w/ tools)45.543.245.840.849.8
指示追従&整合性IFBench75.458.070.460.770.9
MultiChallenge57.954.264.247.363.3
Arena-Hard v280.676.781.766.590.2
ツール実行Tau² Bench80.985.785.480.382.1
BFCL-V463.177.572.561.267.7
Vita Bench38.256.351.644.140.9
Deep Planning44.633.923.321.628.7
ロングコンテキストAA-LCR72.774.070.765.068.7


さっそく「Qwen Chat」ではQwen3-Max-Thinkingが利用可能となったほか、Alibaba Cloudのアカウントを持っていてAlibaba Cloud Model Studioのサービスをアクティブ化すると、「Qwen3-Max-Thinking」(qwen3-max-2026-01-23)のAPIキーが作成可能だとのことです。

この記事のタイトルとURLをコピーする

・関連記事
日本語を含む10言語に対応した音声生成モデル「Qwen3-TTS」ファミリーがオープンソース化 - GIGAZINE

AIっぽくない実写風画像を作れる画像生成AI「Qwen-Image-2512」が登場、無料で使えて日本語での指示も可能 - GIGAZINE

Alibabaが多言語の音声を認識してリアルタイム会話が可能なAIモデル「Qwen3-Omni-Flash」のアップグレード版を発表 - GIGAZINE

コスパの高いAIモデル「Qwen3-Next」登場、従来より10倍高速で同等以上の性能を実現 - GIGAZINE

オープンソースのAIモデル「Qwen3-235B-A22B-Thinking-2507」が公開され主要ベンチマークでOpenAIやGoogleのAIモデルを上回るパフォーマンスを叩き出す - GIGAZINE

中国共産党は中国製高性能AIを支配体制の脅威と認識し検閲を実施している - GIGAZINE

in AI, Posted by logc_nt

You can read the machine translated English article Alibaba Announces Qwen3-Max-Thinking, an….