クラウドなら5倍の費用がかかるところを「8億円の自前データセンター」を運用することで劇的コストカットに成功した企業の体験談

企業が自社でデータセンターを所有するには膨大なコストや土地の取得、政治家への根回しなどが必要だと思うかもしれませんが、自動運転スタートアップのComma.aiは、わずか500万ドル(約7億8000万円)という低コストで自社製データセンターを所有しています。一体どのようにして500万ドル規模の自社データセンターを構築・運営しているのかについて、Comma.aiがブログで解説しました。
Owning a $5M data center - comma.ai blog
https://blog.comma.ai/datacenter/

ビジネスがクラウドコンピューティングに依存している場合、その企業はクラウドプロバイダーに多大な信頼を置いていることになります。Comma.aiのハラルド・シェーファーCTOは、いったんクラウドプロバイダーを選択するとなかなか離れることができず、クラウドサービスの価格変動がビジネスに多大な影響を及ぼすことになると指摘。そのためシェーファー氏は、「自らの運命をコントロールしたいのであれば、自社でコンピューティングを運用する必要があります」と述べています。
また、自社でコンピューティングのためのデータセンターを運用することは企業の自立性を高めるだけでなく、優れたエンジニアリングのインスピレーションにもつながるとのこと。一般に機械学習分野でクラウドを使用する場合、コストを費やしてコンピューティングリソースを増やすだけで成果を改善できますが、これには非効率的で高価なソリューションに縛られるリスクもあります。一方、自分たちで限られたリソースのデータセンターを運用する場合、予算の増額ではなくコードの高速化や根本的な問題修正などに目が向くとシェーファーCTOは主張しているわけです。
以下の写真がComma.aiのデータセンターです。非常なシンプルな構成になっており、数人のエンジニアと技術者によって構築・保守されているとのこと。

データセンターを稼働するには電力が必要であり、Comma.aiのデータセンターでは最大約450kWを使用しています。2025年には総額54万ドル(約8500万円)以上を電気代として支払っており、データセンターコストの大部分を占めています。

データセンターの冷却には一般にコンピューター・ルーム・エアコン(CRAC)が使われますが、これには多額の電気代が必要です。そこでComma.aiはカリフォルニア州サンディエゴの穏やかな気候を生かし、純粋な外気冷却を選択しています。この方法では温度と湿度の制御が難しくなりますが、Comma.aiでは大型の呼気ファンと吸気ファンを2台ずつ設置し、1台のサーバーに複数のセンサーに接続してファンを制御しています。

データセンターのコンピューティング能力の大部分は、75台ものTinyBox Proマシンに搭載された合計600基のGPUによって生み出されています。各マシンは2基のCPUと8基のGPUを搭載しており、AIモデルのトレーニング用マシンとしても一般的なコンピューティングワーカーとしても機能するとのこと。
ストレージにはDELLのR630およびR730を数ラック設置しており、合計4PBもの容量を誇っています。他にもルーター・空調コントローラー・データ取り込みマシン・ストレージマスターサーバーなど、サービスを実行するための個別のマシンがいくつかあります。
ネットワークスイッチには100GbpsのZ9264Fを3台相互接続しているほか、All-Reduceトレーニング用の2つのTinybox Proグループを相互接続するために、InfiniBandスイッチを2台設置しているとシェーファー氏は説明しています。すべてのサーバーにはUbuntuがインストールされ、分散ストレージの管理にはminikeyvalueを使用しています。
メインのトレーニング/コンピューティングマシンが以下。シェーファー氏は、データセンターを所有する方がクラウドサービスと契約するよりはるかに安く済む場合があり、特にモデルのトレーニングや実行といったビジネスを行っている場合はその傾向が強いと指摘。Comma.aiの場合は自社データセンターに約500万ドルを費やしてきましたが、同じことをクラウドでやろうとすると2500万ドル(約39億2000万円)以上かかっただろうとシェーファー氏は推定しています。

・関連記事
「データセンター」の中身はどうなっているのか? - GIGAZINE
IBMのCEOが「AIデータセンターへの設備投資を回収できる可能性はゼロ」と主張 - GIGAZINE
インターネットを支える巨大データセンターの内部を撮影した動画が公開される - GIGAZINE
「データセンターで多数の雇用が創出される」はずが実際の求人数は少なく地元は恩恵が得られないという指摘 - GIGAZINE
AIデータセンターのブームが電力需要に拍車をかける、電力網拡張のために値上げを検討する電力会社も - GIGAZINE
機械学習でGIGAZINEの関連記事を自動生成するサーバーを作ってみました - GIGAZINE
天才ハッカーによる自動運転スタートアップ・Comma.aiが自動車に取り付けるだけで自動運転が可能になる「comma three」を発表 - GIGAZINE
・関連コンテンツ
in ハードウェア, Posted by log1h_ik
You can read the machine translated English article A company's experience of dramatical….







