2025年01月30日 16時00分ソフトウェア

GPT-4oやDeepSeek-V3よりも高性能なAIモデル「Qwen2.5-Max」を中国IT大手のAlibabaがリリース

Alibaba CloudのAI研究チームであるQwenが、AIモデル「Qwen2.5-Max」を2025年1月28日にリリースしました。Qwen2.5-Maxは複数のテストでGPT-4oやDeepSeek-V3を上回るスコアを記録しています。

Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model | Qwen
https://qwenlm.github.io/blog/qwen2.5-max/

Qwen2.5-Maxは、20兆トークン以上の学習データを用いて事前トレーニングしたベースモデルに対して教師ありファインチューニング(SFT)や人間のフィードバックによる強化学習(RLHF)を施して作成されたMoEモデルで、モデルの規模を示すパラメーター数は1000億に達しています。

Qwen2.5-Maxの性能の高さを示す例が以下。まず、Qwen2.5-Maxに対して「マインスイーパーのウェブアプリを作って」という依頼を詳細な条件とともに入力します。

すると実際にマインスイーパーをプレイ可能なコードが出力されました。

「Qwen2.5-Max」「Qwen2.5-72B」「DeepSeek-V3」「Llama 3.1-405B」の各種ベンチマーク結果をまとめた表が以下。Qwen2.5-Maxはすべてのテストで最も高いスコアを記録しています。

以下のグラフは、「Qwen2.5-Max(赤)」「DeepSeek-V3(青)」「Llama 3.1-405B-Instruct(灰色)」「GPT-4o 0806(濃いベージュ)」「Claude 3.5 Sonnet 1022(薄いベージュ)」のベンチマーク結果をまとめたものです。Qwen2.5-Maxは複数のテストでGPT-4oやDeepSeek-V3の性能を上回っています。