2026年01月27日 10時57分 AI

AlibabaがGPT-5.2と同等性能の推論AIモデル「Qwen3-Max-Thinking」を発表

中国のIT大手・Alibaba(阿里巴巴)の開発するオープンソース大規模言語モデル「Qwen」シリーズに、新しくフラッグシップ推論モデル「Qwen3-Max-Thinking」が加わりました。

Pushing Qwen3-Max-Thinking Beyond its Limits
https://qwen.ai/blog?id=qwen3-max-thinking

Qwenチームによると、「Qwen3-Max-Thinking」はモデルパラメーターを拡張し、強化学習のために大量の計算リソースを活用することで、事実に基づく知識や複雑な推論、指示追従、人間の好みとの整合性、エージェント機能など、複数の面でパフォーマンスが大幅に向上しているとのこと。

以下は「GPT-5.2-Thinking」「Claude-Opus-4.5」「Gemini 3 Pro」「DeepSeek V3.2」「Qwen3-Max-Thinking」の5つのモデルのベンチマークスコアを示した表です。「Qwen3-Max-Thinking」は中国語評価テストの「C-Eval」や数学の推論ベンチマーク「HMMT 25」(2025年11月版)、広い分野の問題を詰め込んだ「HLE(人類最後の試験)」、「Arena Hard v2」でトップのスコアを獲得しているほか、他のテストでも4つのモデルに匹敵するスコアとなっています。

	ベンチマークテスト	GPT-5.2 -Thinking	Claude-Opus -4.5	Gemini 3 Pro	DeepSeek V3.2	Qwen3-Max -Thinking
知識	MMLU-Pro	87.4	89.5	89.8	85.0	85.7
	MMLU-Redux	95.0	95.6	95.9	94.5	92.8
	C-Eval	90.5	92.2	93.4	92.9	93.7
STEM(科学・技術・工学・数学)	GPQA	92.4	87.0	91.9	82.4	87.4
STEM(科学・技術・工学・数学)	HLE	35.5	30.8	37.5	25.1	30.2
推論	LiveCodeBench v6	87.7	84.8	90.7	80.8	85.9
	HMMT Feb 25	99.4	-	97.5	92.5	98.0
	HMMT Nov 25	-	-	93.3	90.2	94.7
	IMOAnswerBench	86.3	84.0	83.3	78.3	83.9
エージェンティックコーディング	SWE Verified	80.0	80.9	76.2	73.1	75.3
エージェンティック検索	HLE (w/ tools)	45.5	43.2	45.8	40.8	49.8
指示追従＆整合性	IFBench	75.4	58.0	70.4	60.7	70.9
	MultiChallenge	57.9	54.2	64.2	47.3	63.3
	Arena-Hard v2	80.6	76.7	81.7	66.5	90.2
ツール実行	Tau² Bench	80.9	85.7	85.4	80.3	82.1
	BFCL-V4	63.1	77.5	72.5	61.2	67.7
	Vita Bench	38.2	56.3	51.6	44.1	40.9
	Deep Planning	44.6	33.9	23.3	21.6	28.7
ロングコンテキスト	AA-LCR	72.7	74.0	70.7	65.0	68.7

さっそく「Qwen Chat」ではQwen3-Max-Thinkingが利用可能となったほか、Alibaba Cloudのアカウントを持っていてAlibaba Cloud Model Studioのサービスをアクティブ化すると、「Qwen3-Max-Thinking」(qwen3-max-2026-01-23)のAPIキーが作成可能だとのことです。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2026年01月27日 10時57分00秒 in AI, Posted by logc_nt

You can read the machine translated English article Alibaba Announces Qwen3-Max-Thinking, an….