メモ

Hugging FaceのAIモデルをテストする「Open LLM Leaderboard v2」で中国Qwenのモデルがトップに


世界中のオープンソース言語モデルをランク付けする「Open LLM Leaderboard」のバージョン2をHugging Faceが公開しました。公開時点でトップの座に輝いたのは、アリババが開発した「Qwen2-72B-Instruct」でした。

Open-LLM performances are plateauing, let’s make the leaderboard steep again - a Hugging Face Space by open-llm-leaderboard
https://huggingface.co/spaces/open-llm-leaderboard/blog

Chinese AI models storm Hugging Face's LLM chatbot benchmark leaderboard — Alibaba runs the board as major US competitors have worsened | Tom's Hardware
https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-llms-storm-hugging-faces-chatbot-benchmark-leaderboard-alibaba-runs-the-board-as-major-us-competitors-have-worsened

ランク付けにあたり、各言語モデルは「知能テスト」「短い文脈と長い文脈での推論」「複雑な数学能力」「人間の指示にどの程度従うのか」という4つのタスクで評価されました。


評価には、多肢選択式のベンチマーク「MMLU-Pro」、高度に専門的な知識を測る「GPQA」、殺人事件の謎を解くなどの問題がある「MuSR」、数学適性テストの「MATH」、指示に従う能力を問う「IFEval」、人間の興味を引くような答えを出すかを測る「BBH」、以上6つのベンチマークが用いられました。

7500を超えるモデルが評価され、堂々の1位となったのは「Qwen2-72B-Instruct」でした。Hugging Faceは「Qwen2-72B-Instructは他のモデルよりも頭一つ抜けています」と語っています。事実、平均評価点が40点台に到達したのはQwen2-72B-Instructのみでした。

結果は以下のリンクから確認できます。

Open LLM Leaderboard 2 - a Hugging Face Space by open-llm-leaderboard
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard


このランキングは順次変動しています。記事作成時点で、1位から10位までの内訳は以下の通りです。

1位:Qwen/Qwen2-72B-Instruct
2位:meta-llama/Meta-Llama-3-70B-Instruct
3位:Qwen/Qwen2-72B
4位:mistralai/Mixtral-8x22B-Instruct-v0.1
5位:HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1
6位:microsoft/Phi-3-medium-4k-instruct
7位:01-ai/Yi-1.5-34B-Chat
8位:CohereForAI/c4ai-command-r-plus
9位:abacusai/Smaug-72B-v0.1
10位:Qwen/Qwen1.5-110B

上記の通り、Qwenのモデルはトップ10のうち3つを占め、圧倒的な強さを見せています。なお、今回9位となった「Smaug-72B」は2024年2月時点でOpen LLM Leaderboard バージョン1のトップでした。Smaug-72Bは、今回3位の「Qwen-72B」を微調整して作られたモデルです。

Abacus AIがリリースしたオープンソースLLM「Smaug-72B」がHugging FaceのOpen LLM LeaderboardでトップとなりいくつかのベンチマークでGPT-3.5を上回ったことが明らかに - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
オープンソースで商用利用可能な大規模言語モデル「Falcon」が登場、オープンソースモデルの中では最高の性能に - GIGAZINE

Stability AIがChatGPTと同等の性能を持つオープンソースの大規模言語モデル「FreeWilly」を公開 - GIGAZINE

NVIDIAがオープンモデル「Nemotron-4 340B」を発表、LLMトレーニング用合成データの生成に革命を起こすか - GIGAZINE

Googleがオープンソースのビジュアル言語モデル「PaliGemma」を公開&Llama 3と同等性能の大規模言語モデル「Gemma 2」を発表 - GIGAZINE

GoogleのAIに匹敵するオープンソースのAIモデル「Falcon 2」をUAEがリリース - GIGAZINE

in Posted by log1p_kr

You can read the machine translated English article here.