2024年12月09日 06時00分ハードウェア

NVIDIA製グラボやAppleチップのAI推論処理能力をまとめた一覧表、どのグラボやMacを買えばいいのかの参考になる

一昔前まではグラフィックボードのメイン用途はゲームなどの3Dグラフィック処理でしたが、近年では「ローカルでAIで動作させる」ということを目的にグラフィックボードを選択する事例も増えています。大量のNVIDIA製グラフィックボードやApple製チップで大規模言語モデル「LLaMA 3」の推論処理を実行した際の処理性能をまとめたウェブページ「GPU-Benchmarks-on-LLM-Inference」を見つけたので、内容をまとめてみました。

GitHub - XiongjieDai/GPU-Benchmarks-on-LLM-Inference: Multiple NVIDIA GPUs or Apple Silicon for Large Language Model Inference?
https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference

GPU-Benchmarks-on-LLM-InferenceはAI研究者のXiongjie Dai氏が作成した性能比較ページで、各種グラフィックボードやApple製チップでLLaMA 3の推論処理を実行した際の秒間処理トークン数がまとまっています。なお、LLaMA 3の実行には「llama.cpp」を使用しており、「パラメーター数が8Bのモデル」「パラメーター数が8Bのモデルを量子化したもの」「パラメーター数が70Bのモデル」「パラメーター数が70Bのモデルを量子化したもの」で性能を検証しています。

性能比較表に含まれるグラフィックボードのうち、比較的入手が容易なゲーム用途のグラフィックボードの検証結果を抜き出したものが以下。最も高い性能を示したのは「RTX 4090 24GB」でした。また、「RTX 3090 24GB」「RTX 4080 16GB」「RTX 4090 24GB」の3モデルは量子化を施していないLLaMA 3 8Bを実行できています。一方で、LLaMA 3 70Bは量子化済みのモデルであっても実行不可能でした。

GPU	8B Q4_K_M	8B F16	70B Q4_K_M	70B F16
RTX 3070 8GB	70.94	メモリ不足	メモリ不足	メモリ不足
RTX 3080 10GB	106.40	メモリ不足	メモリ不足	メモリ不足
RTX 3080 Ti 12GB	106.71	メモリ不足	メモリ不足	メモリ不足
RTX 3090 24GB	111.74	46.51	メモリ不足	メモリ不足
RTX 4070 Ti 12GB	82.21	メモリ不足	メモリ不足	メモリ不足
RTX 4080 16GB	106.22	40.29	メモリ不足	メモリ不足
RTX 4090 24GB	127.74	54.34	メモリ不足	メモリ不足

グラフィックボードを複数個搭載したマシンの処理性能はこんな感じ。グラフィックボードを増やすことでメモリ不足は解消できるものの、秒間処理トークン数に大きな違いは出ないことが分かります。

GPU	8B Q4_K_M	8B F16	70B Q4_K_M	70B F16
RTX 3090 24GB 2個	108.07	47.15	16.29	メモリ不足
RTX 3090 24GB 4個	104.94	46.40	16.89	メモリ不足
RTX 3090 24GB 6個	101.07	45.55	16.93	5.82
RTX 4090 24GB 2個	122.56	53.27	19.06	メモリ不足
RTX 4090 24GB 4個	117.61	52.69	18.83	メモリ不足
RTX 4090 24GB 8個	116.13	52.12	18.76	6.45

計算処理向けグラフィックボードの処理性能は以下の通り。

GPU	8B Q4_K_M	8B F16	70B Q4_K_M	70B F16
RTX 4000 Ada 20GB	58.59	20.85	メモリ不足	メモリ不足
RTX 4000 Ada 20GB 4個	56.14	20.58	7.33	メモリ不足
RTX 5000 Ada 32GB	89.87	32.67	メモリ不足	メモリ不足
RTX 5000 Ada 32GB 4個	82.73	31.94	11.45	メモリ不足
RTX A6000 48GB	102.22	40.25	14.58	メモリ不足
RTX A6000 48GB 4個	93.73	38.87	14.32	4.74
RTX 6000 Ada 48GB	130.99	51.97	18.36	メモリ不足
RTX 6000 Ada 48GB 4個	118.99	50.25	17.96	6.06

そして、ハイパフォーマンスコンピューティングやAI処理向けのチップでLLaMA 3の各モデルを実行した際の推論処理性能が以下。

GPU	8B Q4_K_M	8B F16	70B Q4_K_M	70B F16
A40 48GB	88.95	33.95	12.08	メモリ不足
A40 48GB 4個	83.79	33.28	11.91	3.98
L40S 48GB	113.60	43.42	15.31	メモリ不足
L40S 48GB 4個	105.72	42.48	14.99	5.03
A100 PCIe 80GB	138.31	53.18	24.33	メモリ不足
A100 PCIe 80GB 4個	117.30	51.54	22.68	7.38
A100 SXM 80GB	133.38	53.18	24.33	メモリ不足
A100 SXM 80GB 4個	97.70	45.45	19.60	6.92
H100 PCIe 80GB	144.49	67.79	25.01	メモリ不足
H100 PCIe 80GB 4個	118.14	62.90	26.20	9.63

また、Apple製チップ搭載Macでの推論処理性能はこんな感じ。M2 UltraとM3 Maxの性能差をみるとLLMの処理におけるメモリ容量の重要性が分かります。

GPU	8B Q4_K_M	8B F16	70B Q4_K_M	70B F16
M1 7‑Core GPU 8GB	9.72	メモリ不足	メモリ不足	メモリ不足
M1 Max 32‑Core GPU 64GB	34.49	18.43	4.09	メモリ不足
M2 Ultra 76-Core GPU 192GB	76.28	36.25	12.13	4.71
M3 Max 40‑Core GPU 64GB	50.74	22.39	7.53	メモリ不足