ハードウェア

NVIDIA製グラボやAppleチップのAI推論処理能力をまとめた一覧表、どのグラボやMacを買えばいいのかの参考になる


一昔前まではグラフィックボードのメイン用途はゲームなどの3Dグラフィック処理でしたが、近年では「ローカルでAIで動作させる」ということを目的にグラフィックボードを選択する事例も増えています。大量のNVIDIA製グラフィックボードやApple製チップで大規模言語モデル「LLaMA 3」の推論処理を実行した際の処理性能をまとめたウェブページ「GPU-Benchmarks-on-LLM-Inference」を見つけたので、内容をまとめてみました。

GitHub - XiongjieDai/GPU-Benchmarks-on-LLM-Inference: Multiple NVIDIA GPUs or Apple Silicon for Large Language Model Inference?
https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference

GPU-Benchmarks-on-LLM-InferenceはAI研究者のXiongjie Dai氏が作成した性能比較ページで、各種グラフィックボードやApple製チップでLLaMA 3の推論処理を実行した際の秒間処理トークン数がまとまっています。なお、LLaMA 3の実行には「llama.cpp」を使用しており、「パラメーター数が8Bのモデル」「パラメーター数が8Bのモデルを量子化したもの」「パラメーター数が70Bのモデル」「パラメーター数が70Bのモデルを量子化したもの」で性能を検証しています。

性能比較表に含まれるグラフィックボードのうち、比較的入手が容易なゲーム用途のグラフィックボードの検証結果を抜き出したものが以下。最も高い性能を示したのは「RTX 4090 24GB」でした。また、「RTX 3090 24GB」「RTX 4080 16GB」「RTX 4090 24GB」の3モデルは量子化を施していないLLaMA 3 8Bを実行できています。一方で、LLaMA 3 70Bは量子化済みのモデルであっても実行不可能でした。

GPU8B Q4_K_M8B F1670B Q4_K_M70B F16
RTX 3070 8GB70.94メモリ不足メモリ不足メモリ不足
RTX 3080 10GB106.40メモリ不足メモリ不足メモリ不足
RTX 3080 Ti 12GB106.71メモリ不足メモリ不足メモリ不足
RTX 3090 24GB111.7446.51メモリ不足メモリ不足
RTX 4070 Ti 12GB82.21メモリ不足メモリ不足メモリ不足
RTX 4080 16GB106.2240.29メモリ不足メモリ不足
RTX 4090 24GB127.7454.34メモリ不足メモリ不足


グラフィックボードを複数個搭載したマシンの処理性能はこんな感じ。グラフィックボードを増やすことでメモリ不足は解消できるものの、秒間処理トークン数に大きな違いは出ないことが分かります。

GPU8B Q4_K_M8B F1670B Q4_K_M70B F16
RTX 3090 24GB 2個108.0747.1516.29メモリ不足
RTX 3090 24GB 4個104.9446.4016.89メモリ不足
RTX 3090 24GB 6個101.0745.5516.935.82
RTX 4090 24GB 2個122.5653.2719.06メモリ不足
RTX 4090 24GB 4個117.6152.6918.83メモリ不足
RTX 4090 24GB 8個116.1352.1218.766.45


計算処理向けグラフィックボードの処理性能は以下の通り。

GPU8B Q4_K_M8B F1670B Q4_K_M70B F16
RTX 4000 Ada 20GB58.5920.85メモリ不足メモリ不足
RTX 4000 Ada 20GB 4個56.1420.587.33メモリ不足
RTX 5000 Ada 32GB89.8732.67メモリ不足メモリ不足
RTX 5000 Ada 32GB 4個82.7331.9411.45メモリ不足
RTX A6000 48GB102.2240.2514.58メモリ不足
RTX A6000 48GB 4個93.7338.8714.324.74
RTX 6000 Ada 48GB130.9951.9718.36メモリ不足
RTX 6000 Ada 48GB 4個118.9950.2517.966.06


そして、ハイパフォーマンスコンピューティングやAI処理向けのチップでLLaMA 3の各モデルを実行した際の推論処理性能が以下。

GPU8B Q4_K_M8B F1670B Q4_K_M70B F16
A40 48GB88.9533.9512.08メモリ不足
A40 48GB 4個83.7933.2811.913.98
L40S 48GB113.6043.4215.31メモリ不足
L40S 48GB 4個105.7242.4814.995.03
A100 PCIe 80GB138.3153.1824.33メモリ不足
A100 PCIe 80GB 4個117.3051.5422.687.38
A100 SXM 80GB133.3853.1824.33メモリ不足
A100 SXM 80GB 4個97.7045.4519.606.92
H100 PCIe 80GB144.4967.7925.01メモリ不足
H100 PCIe 80GB 4個118.1462.9026.209.63


また、Apple製チップ搭載Macでの推論処理性能はこんな感じ。M2 UltraとM3 Maxの性能差をみるとLLMの処理におけるメモリ容量の重要性が分かります。

GPU8B Q4_K_M8B F1670B Q4_K_M70B F16
M1 7‑Core GPU 8GB9.72メモリ不足メモリ不足メモリ不足
M1 Max 32‑Core GPU 64GB34.4918.434.09メモリ不足
M2 Ultra 76-Core GPU 192GB76.2836.2512.134.71
M3 Max 40‑Core GPU 64GB50.7422.397.53メモリ不足


Dai氏は、性能比較結果をもとに「お金を節約するならNVIDIA製のゲーム用グラフィックボード、ビジネス用途ならプロ向けグラフィックボード、省電力性能や静音性能を求めるならMacを購入してください」と結論付けています。

この記事のタイトルとURLをコピーする

・関連記事
画像生成AIをノートPCでどれくらいの速度で動かせるのか、「Razer Blade 16」のVRAM容量16GB「GeForce RTX 4090 Laptop」で実際に試してみたよレビュー - GIGAZINE

VRAM容量12GBの「GeForce RTX 4070 SUPER」は画像生成AIでどれだけの性能を発揮するのか?旧世代グラボと徹底比較してみたよレビュー - GIGAZINE

4K画質&レイトレーシング対応で120FPSをたたき出すNVIDIA DLSS3対応のGeForce RTX 4090搭載グラボ「TUF-RTX4090-24G-GAMING」でゲームしたり動画編集したりしてみた - GIGAZINE

M4/M4 Pro/M4 Max搭載MacBook Proが登場、ローカルで巨大AIを実行可能でバッテリーは24時間持続 - GIGAZINE

なぜ研究者はローカルPCでAIを実行する必要があるのか? - GIGAZINE

in ソフトウェア,   ハードウェア, Posted by log1o_hf

You can read the machine translated English article here.