ソフトウェア

対話型チャットAIのベンチマーク番付で1位はGPT-4ベースのChatGPTで2位はClaude-v1、GoogleのPaLM 2もトップ10にランクイン


カリフォルニア大学バークレー校の学生と教員がカリフォルニア大学サンディエゴ校とカーネギーメロン大学と協力して設立したオープンな研究組織「Large Model Systems Org(LMSYS Org)」が、ChatGPTやPaLMVicunaなどのチャットAIや大規模言語モデル(LLM)のベンチマーク「Chatbot Arena」を公開しています。

Chatbot Arena Leaderboard Updates (Week 4) | LMSYS Org
https://lmsys.org/blog/2023-05-25-leaderboard/


Chatbot Arenaでは、LLMベースの対話型AIを評価するためのオープンプラットフォーム「FastChat」にユーザーが招待され、匿名モデル2種類を相手に会話を行い、どちらの方がより精度が高かったかの投票が行われます。この投票結果から、チェスなどで広く使用されているイロレーティングに基づいた勝敗とレーティングが行われ、順位表が公開されます。

2023年4月24日から5月22日までに行われた2万7000票分の匿名投票データに基づく順位表が以下。1位はOpenAIのGPT-4をベースとするChatGPTで、2位と3位はOpenAIの競合企業であるAnthropicのClaude-v1とその軽量モデルでした。

順位モデルイロレーティング解説
1GPT-41225GPT-4ベースのChatGPT
2Claude-v11195AnthropicのチャットAI
3Claude-instant-v11153Claudeの軽量化モデルでより高速かつ低コスト
4GPT-3.5-turbo1143GPT-3.5ベースのChatGPT
5Vicuna-13B1054LLaMAから微調整されたチャットAI、パラメータ数130億
6PaLM 21042GoogleのチャットAI「Bard」と同じく「PaLM 2」をベースにしたチャットAI.
7Vicuna-7B1007LLaMAから微調整されたチャットAI、パラメータ数70億
8Koala-13B980GPT-3.5 TurboがベースのチャットAi
9mpt-7B-chat952MosaicMLのオープンソースLLM「MPT-7B」ベースのチャットAI
10FastChat-T5-3B941LMSYS orgが開発したチャットAI
11Alpaca-13B937MetaのLLaMAをファインチューニングしたLLM「Alpaca 7B」ベースのチャットAI
12RMKV-4-Raven-14B928Transformer採用のLLMと同等のパフォーマンスを持つRNN採用LLMベースのチャットAI
13Oasst-Pythia-12B921LAIONによるオープンアシスタント
14ChatGLM-6B921清華大学によるオープンなバイリンガル対話言語モデル
15StableLM-Tuned-Alpha-7B882Stablity AIの言語モデルベースのチャットAI
16Dolly-V2-12B886Databricks MITによってチューニングされたオープンソースのLLMベースのチャットAI
17LLaMA-13B854MetaのLLaMA-13BをベースにしたチャットAI


勝率を色で示した表が以下。勝率が高いほど青く、低いほど赤く表示されています。


今回の結果で、LMSYS Orgは「Google PaLM 2」に注目しています。PaLM 2は順位表で見ると6位にランクインしており、勝率も決して低くありません。ただし、LMSYS Orgは「PaLM 2は他のモデルに比べて規制が厳しいようです。ユーザーが不確かな質問や答えにくい質問をした場合、PaLM 2は他のモデルと比べて回答を控える可能性が高くなります」と述べています。

例えば、Linuxターミナルやプログラミング言語のインタープリターをエミュレートするように要求すると、PaLM 2は拒否したそうです。さらに、LMSYS Orgは「PaLM 2の推論能力は十分ではない」と評価しています。

また、PaLM 2は中国語やスペイン語、ヘブライ語など英語以外の質問には回答しないという傾向も見られたそうです。英語で質問した場合のみを考慮した順位だと、PaLM 2は5位にランクインしましたが、英語以外で質問した場合の順位では16位に転落しました。


そして、LMSYS Orgは、Vicuna-7Bやmpt-7b-chatといった比較的小型のLLMをベースにしたチャットボットの順位が高いことにも注目しています。パラメーターが2倍以上ある大きなモデルと比較した時、小型のモデルの方がパフォーマンスは有利であることが示されたそうで、LMSYS Orgは「LLMのパラメーター数のサイズよりも、高品質の事前トレーニングとファインチューニングのデータセットの方が重要なケースもあるようです」と述べ、モデルのサイズを削減するには事前トレーニングとファインチューニングで高品質なデータセットを用意することが重要なアプローチだと指摘しています。

この記事のタイトルとURLをコピーする

・関連記事
オープンソースの大規模言語モデル開発プロジェクト「RedPajama」が最初のモデル「RedPajama-INCITE」をリリース、無料で商用利用も可能 - GIGAZINE

Stability AIがオープンソースで商用利用も可能な大規模言語モデル「StableLM」をリリース - GIGAZINE

GoogleのAI用プロセッサ「TPU v4」はNVIDIAの「A100」より高速で効率的だとGoogleの研究者が主張 - GIGAZINE

GPT-3に匹敵するチャットAIモデル「LLaMA」をiPhoneやPixelなどのスマホで動かすことに成功 - GIGAZINE

AI戦争に勝利する方法とは? - GIGAZINE

in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article here.