2024年03月13日 14時00分ハードウェア

「NVIDIA H100 GPU」を2万4576基搭載して「Llama 3」などのトレーニングに活用されているGPUクラスターの情報をMetaが公開

「AI開発をリードするということは、ハードウェアインフラへの投資でリードするということ」として、MetaがAIのための投資として行っている、2万4000基以上のGPUを搭載したデータセンタースケールのクラスターの情報を明らかにしました。

Building Meta’s GenAI Infrastructure - Engineering at Meta
https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/

Meta reveals details of two new 24k GPU AI clusters - DCD
https://www.datacenterdynamics.com/en/news/meta-reveals-details-of-two-new-24k-gpu-ai-clusters/

2022年、MetaがGPU1万6000基を搭載した「AI Research SuperCluster(RSC)」の構築が報じられました。

1万6000個のGPUを搭載した世界最速のAIスーパーコンピューターをMetaが構築中 - GIGAZINE

新たなGPUクラスターは、このRSCをベースとして得られた教訓などを反映して構築されていて、機械学習に最適だとされる「NVIDIA H100 GPU」を2万4576基搭載しています。Metaは2023年にNVIDIA H100 GPUを15万基購入したとみられています。

15万台のNVIDIA H100 GPUをMetaとMicrosoftが購入したとの分析、Google・Amazon・Oracleの3倍 - GIGAZINE

Metaによると、新たなGPUクラスターはRSCよりも巨大で複雑なモデルをサポートできるようになるので、生成AI開発の進歩への道が開かれるとのこと。実際に、このクラスターは一般公開されている大規模言語モデル・Llama 2の後継であるLlama 3を含む、Metaが取り組んでいる現世代および次世代のAIモデルをサポートするとともに、生成AIや、その他の分野のAI研究開発をサポートしているとのこと。

なお、Metaのインフラストラクチャロードマップにおいて、今回のGPUクラスター構築はステップの1つに過ぎず、2024年末までにNVIDIA H100 GPU35万基を含み、計算能力でいえばNVIDIA H100 GPU60万基に相当するインフラの構築を目指すとのことです。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2024年03月13日 14時00分00秒 in ハードウェア, Posted by logc_nt

You can read the machine translated English article Meta releases information on a GPU clust….