2023年05月31日 19時00分ソフトウェア

Metaの大規模言語モデル「LLaMA」がChatGPTを再現できる可能性があるとさまざまなチャットAI用言語モデルのベンチマーク測定で判明

近年は機械学習分野の研究がめまぐるしい勢いで進んでおり、数十億を超えるパラメーターを持つ大規模言語モデルが相次いで発表されています。イギリス・エディンバラ大学の大規模言語モデル研究者であるヤオ・フー氏らの研究チームが、独自のベンチマークに基づいて複数の大規模言語モデルのパフォーマンスを比較した結果をGitHubで公開しています。

GitHub - FranxYao/chain-of-thought-hub: Benchmarking large language models' complex reasoning ability with chain-of-thought prompting
https://github.com/FranxYao/chain-of-thought-hub

研究チームによると、「パラメーターが10B未満の言語モデルでも、OpenAIのGPT-3.5と同等のパフォーマンスを達成できる」と主張する人は多いとのこと。しかし、OpenAIはGPT-4のリリースに際して「大規模言語モデルの性能差は十分な複雑さを持ったタスクに直面した時に現れる」と指摘しています。そこで、一定のベンチマークに基づいてさまざまな大規模言語モデルの性能差を確かめるため、以下の「複雑な推論タスクのリスト」を作成しました。

・MMLU……高校および大学レベルの知識問題。
・GSM8K……小学生レベルの算数。このデータセットにおける性能向上は、大規模言語モデルと対話する際の日常的な数学の能力に直結します。
・MATH……非常に難しい数学および自然科学の問題。
・BBH……27問の難しい推論問題。
・HumanEval……コーディング能力を評価する古典的なデータセット。
・C-Eval……52分野にわたる中国語知識検定の問題集。
・TheoremQA……数学、物理学、電気電子工学、コンピューター科学、金融など、多分野にわたる350の定理に基づいた質疑応答データセット。

そして、研究チームがベンチマークを測定した結果の表が以下です。なお、各大規模言語モデルの「タイプ」の項目は、「BASE」が事前トレーニングされたもの、「SIFT」が教師あり命令微調整後のもの、「RLHF」が人間のフィードバックによる教科学習後のものを示しています。

モデル名	パラメーター数	タイプ	GSM8K	MATH	MMLU	BBH	HumanEval	C-Eval	TheoremQA
gpt-4	?	RLHF	92.0	42.5	86.4	-	67.0	68.7	43.4
claude-v1.3	?	RLHF	81.8	-	74.8	67.3	-	54.2	24.9
PaLM-2	?	Base	80.7	34.3	78.3	78.1	-	-	31.8
gpt-3.5-turbo	?	RLHF	74.9	-	67.3	70.1	48.1	54.4	30.2
claude-instant	?	RLHF	70.8	-	-	66.9	-	45.9	23.6
text-davinci-003	?	RLHF	-	-	64.6	70.7	-	-	22.8
code-davinci-002	?	Base	66.6	19.1	64.5	73.7	47.0	-	-
text-davinci-002	?	SIFT	55.4	-	60.0	67.2	-	-	16.6
Minerva	540B	SIFT	58.8	33.6	-	-	-	-	-
Flan-PaLM	540B	SIFT	-	-	70.9	66.3	-	-	-
Flan-U-PaLM	540B	SIFT	-	-	69.8	64.9	-	-	-
PaLM	540B	Base	56.9	8.8	62.9	62.0	26.2	-	-
LLaMA	65B	Base	50.9	10.6	63.4	-	23.7	38.8	-
PaLM	64B	Base	52.4	4.4	49.0	42.3	-	-	-
LLaMA	33B	Base	35.6	7.1	57.8	-	21.7	-	-
InstructCodeT5+	16B	SIFT	-	-	-	-	35.0	-	11.6
StarCoder	15B	Base	8.4	15.1	33.9	-	33.6	-	12.2
Vicuna	13B	SIFT	-	-	-	-	-	-	12.9
LLaMA	13B	Base	17.8	3.9	46.9	-	15.8	-	-
Flan-T5	11B	SIFT	16.1	-	48.6	41.4	-	-	-
Alpaca	7B	SIFT	-	-	-	-	-	-	13.5
LLaMA	7B	Base	11.0	2.9	35.1	-	10.5	-	-
Flan-T5	3B	SIFT	13.5	-	45.5	35.2	-	-	-

表を見ると、同じ大規模言語モデルであってもパラメーター数によって性能に大きな差があることや、各ベンチマークのスコアもモデルのパラメータ数におおよそ比例することがわかります。研究チームは今回の結果から、以下のような点を指摘しています。

・「GPT-4」はGSM8KとMMLUにおいて、他のすべてのモデルより明らかに優れている。
・Metaが開発した「LLaMa」はパラメーター数が65Bのモデルにおいて、GPT-3を使用した自然言語処理エンジンである「text/code-davinci-002」と非常に近い性能を持っており、正しく調整すれば65B LLaMaに基づいてChatGPTを再現できる可能性がある。
・AI研究スタートアップのAnthropicが開発した「Claude」は、GPTファミリーに匹敵する唯一の大規模言語モデルファミリーである。
・GSM8Kについて「gpt-3.5-turbo」が「text-davinci-003」よりも優れているのは、OpenAIが2023年1月30日のリリースノートで言及した「数学的能力の向上」を裏付けている。
・MMLUについては「gpt-3.5-turbo」が「text-davinci-003」よりわずかに優れているものの、その差は大きいものではない。