ソフトウェア

数学を解ける言語モデル「Qwen2-Math」が登場、GPT-4o超えの数学性能


中国のAI研究チームが数学特化の大規模言語モデル「Qwen2-Math」を公開しました。Qwen2-MathはGPT-4oやGemini-1.5-Proなどのクローズドソースの大規模言語モデルをしのぐ数学性能を備えています。

Introducing Qwen2-Math | Qwen
https://qwenlm.github.io/blog/qwen2-math/

QwenLM/Qwen2-Math: A series of math-specific large language models of our Qwen2 series.
https://github.com/QwenLM/Qwen2-Math

Qwen2-Mathは、AlibabaグループのAI研究チーム「Qwen Team」が開発した大規模言語モデルで、数学問題の正答率の高さが特徴です。Qwen2-Mathは非常に高い性能を示すことで話題になった「Qwen2」シリーズの派生モデルで、「Qwen2で生成した数学関連情報」などを学習データとして用いているとのこと。

Hugging FaceのAIモデルをテストする「Open LLM Leaderboard v2」で中国Qwenのモデルがトップに - GIGAZINE


Qwen2-Mathには基本モデルの「Qwen2-Math-1.5B」「Qwen2-Math-7B」「Qwen2-Math-72B」と、命令調整モデルの「Qwen2-Math-1.5B-Instruct」「Qwen2-Math-7B-Instruct」「Qwen2-Math-72B-Instruct」が存在します。各種大規模言語モデルのリリース時期と数学問題正答率をまとめたグラフを確認すると、「Qwen2-Math-72B-Instruct」は「GPT-4o」「Claude-3.5-Sonnet」「Gemini-1.5-Pro」「Llama-3.1-405B」といったモデルと比べて数学を解く性能が高いことが分かります。


大規模言語モデルの数学性能ベンチマークの実行結果が以下。Qwen2-Mathの命令調整モデルの中で最もパラメータ数の少ない「Qwen2-Math-1.5B-Instruct」でもほとんどのベンチマークテストで「Llama-3.1-70B-Instruct」のスコアを上回っています。


Qwen2-Mathは記事作成時点では英語にのみ対応しており、近日中に中国語版も公開される予定です。各モデルは以下のリンク先で公開されています。

Qwen (Qwen)
https://huggingface.co/Qwen

この記事のタイトルとURLをコピーする

・関連記事
コード生成・数学・推論の能力が大幅に向上した「Mistral Large 2」をMistral AIがリリース - GIGAZINE

OpenAIが新型人工知能「Strawberry」プロジェクトを密かに推進、以前「Q*」とリークで呼ばれていた数学が解けるAI - GIGAZINE

数学オリンピックの問題で銀メダルレベルのスコアを残すAIを開発したとGoogle DeepMindが発表 - GIGAZINE

Google DeepMindが数学オリンピックレベルの幾何学問題を解けるAI「AlphaGeometry」を発表、人間の金メダリストに近い性能を発揮 - GIGAZINE

in ソフトウェア, Posted by log1o_hf

You can read the machine translated English article here.