GPT-4oやDeepSeek-V3よりも高性能なAIモデル「Qwen2.5-Max」を中国IT大手のAlibabaがリリース
Alibaba CloudのAI研究チームであるQwenが、AIモデル「Qwen2.5-Max」を2025年1月28日にリリースしました。Qwen2.5-Maxは複数のテストでGPT-4oやDeepSeek-V3を上回るスコアを記録しています。
Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model | Qwen
https://qwenlm.github.io/blog/qwen2.5-max/
Qwen2.5-Maxは、20兆トークン以上の学習データを用いて事前トレーニングしたベースモデルに対して教師ありファインチューニング(SFT)や人間のフィードバックによる強化学習(RLHF)を施して作成されたMoEモデルで、モデルの規模を示すパラメーター数は1000億に達しています。
Qwen2.5-Maxの性能の高さを示す例が以下。まず、Qwen2.5-Maxに対して「マインスイーパーのウェブアプリを作って」という依頼を詳細な条件とともに入力します。
すると実際にマインスイーパーをプレイ可能なコードが出力されました。
「Qwen2.5-Max」「Qwen2.5-72B」「DeepSeek-V3」「Llama 3.1-405B」の各種ベンチマーク結果をまとめた表が以下。Qwen2.5-Maxはすべてのテストで最も高いスコアを記録しています。
以下のグラフは、「Qwen2.5-Max(赤)」「DeepSeek-V3(青)」「Llama 3.1-405B-Instruct(灰色)」「GPT-4o 0806(濃いベージュ)」「Claude 3.5 Sonnet 1022(薄いベージュ)」のベンチマーク結果をまとめたものです。Qwen2.5-Maxは複数のテストでGPT-4oやDeepSeek-V3の性能を上回っています。
Qwen2.5-MaxはAlibaba CloudのAPI経由で使用可能です。また、Qwenが提供しているチャットAI「Qwen Chat」でもQwen2.5-Maxが利用可能となっています。
・関連記事
PCやスマートフォンのUIを認識して自動操作できる視覚言語モデル「Qwen2.5 VL」をAlibabaのAI研究チームがリリース、GPT-4o超えの性能で航空券の予約などを自動で実行可能 - GIGAZINE
TikTokのByteDanceがAI「Doubao-1.5-pro」をリリース、OpenAIのモデルに匹敵する中国製AIが続々登場 - GIGAZINE
OpenAI o1相当の推論モデル「DeepSeek R1」を中国AI企業が商用利用や改変が可能なMITライセンスでリリース - GIGAZINE
DeepSeekはなぜこんな大騒ぎになっていて一体何がそんなにスゴいのか - GIGAZINE
DeepSeekはどのようにしてOpenAIの3%のコストでo1を超えたのか? - GIGAZINE
OpenAIのサム・アルトマンCEOが「DeepSeek-R1はスゴイけど、もっとスゴイAIモデルを発表予定」と発言 - GIGAZINE
低コストで超高性能な「DeepSeek-R1」に似たAIモデルを誰でも開発できるようにオープンでない部分を補完するプロジェクト「Open-R1」をHugging Faceが始動 - GIGAZINE
・関連コンテンツ
in ソフトウェア, Posted by log1o_hf
You can read the machine translated English article Chinese IT giant Alibaba releases 'Qwen2….