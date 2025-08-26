

コンピューターを長時間動かす上で問題になるのが排熱で、空気や冷却液を使ってチップを冷やすのが一般的です。Googleが運営する巨大なデータセンターでは大規模な液体冷却システムが採用されており、2025年8月24日～26日にカリフォルニアで開催された「Hot Chips 2025」でGoogleがその液体冷却システムについて解説。その講演の内容をハードウェア関連ニュースサイトのChips and Cheeseがまとめています。



Google's Liquid Cooling at Hot Chips 2025 - by Chester Lam

https://chipsandcheese.com/p/googles-liquid-cooling-at-hot-chips



近年、最新チップの消費電力増加とそれに伴う発熱の増加に伴い、データセンターにおける液冷の役割はますます重要になっており、特にAIの機械学習に用いるデータセンターでは膨大な電力消費と十全な冷却システムが求められます。Googleによると、水の熱伝導率は空気の約4000倍で、液冷システムはAIブームに伴う冷却需要に対処する魅力的なソリューションだとのこと。





Googleは、液冷システムはいくつかの実験と反復を経て、2018年に形になったと述べています。今使われている液冷システムはデータセンター規模を想定して設計されており、冷却液の循環パイプはTPUサーバー内に収められるのではなく、ラック全体に広がっているそうです。さらに、冷却液の循環を含めた冷却システム全体の制御はAIによって最適化されており、冷却効率が最大限になるように工夫されています。





Googleのデータセンターでは、6台の冷却液分配ユニット(CDU)を1つのラックに搭載。ラジエーターとポンプの役割を担うCDUは、フレキシブルホースとクイックディスコネクトカップリングを採用しており、メンテナンスを容易にし、許容誤差要件を軽減します。CDUラックでは6台のうち5台のCDUがアクティブになっており、1台のユニットをダウンタイムなしでメンテナンスできるようになっているとのこと。





CDUから送られてきた冷却液は、各サーバーで分配され、サーバー内部でチップ上に取り付けられた銅製の冷却プレートに流れます。この液体プレートで熱を吸収した冷却液は、CDU内の熱交換器を介してデータセンター全体の冷却水の排出経路に流れます。CDUは冷却液と施設全体の冷却水との間で熱交換を行いますが、この二つの液体が混ざることはありません。



チップはループ内で直列に接続されているため、後段に位置するチップはすでに他のチップを通過して温められた冷却液で冷却されることになります。つまり、後段のチップほど冷却効率が下がるため、冷却システムは各ループの最後のチップの要件に基づいて設計されているそうです。



Googleは冷却性能をさらに高めるため、冷却プレートの設計にも工夫を凝らしています。熱抵抗を低減するために、従来の一方向流の構成よりも性能が高いスプリットフロー方式の銅製冷却プレートを採用。また、TPUの世代ごとにも改良が加えられています。



第3世代TPUでは、冷却プレートは直列に配置され、リッド(蓋)付きのチップパッケージが使われていました。一方、第3世代TPUと比較して消費電力が1.6倍に増加した第4世代TPUでは、より高い熱伝達効率を得るために、チップが露出したパッケージに変更されました。さらに第4世代TPUでは、冷却プレートを並列に配置して均一な流れを最適化し、電気機械式のバルブによって流量を能動的に制御する仕組みも導入されているとのこと。





液体冷却は、チップから熱を除去するだけでなく、冷却関連の電力要件を削減する上でも効果的とのことで、Googleによると、液体冷却ポンプの消費電力は、空冷システムで必要となるファンの電力の5％未満だったそうです。



こうした大規模システムでは、信頼性とメンテナンス性が極めて重要になります。Googleの液体冷却システムは、2020年以降一貫して99.999％という高い稼働率を維持しているとのこと。これは、設計、導入、運用の各段階でアップタイムを考慮していることが功を奏しています。



設計面では、CDUを6台運用することで冗長性を持たせているほか、導入時にはリークテスト、冷却液の充填と空気抜き、ポンプや遠隔監視システムの機能テストなど、厳格な手順が踏まれます。





運用面では、予防保守、遠隔監視システムとアラーム、腐食や生物増殖の検出、安全プロトコルを伴う漏水検知と対応、緊急時操作手順、圧力目標の維持、そしてろ過といった多岐にわたる対策が講じられています 。





Googleは、コンポーネントの広範なリークテストやアラートシステム、定期メンテナンスといった予防措置を講じるとともに、問題発生時に多数の従業員が一貫した方法で対応できるよう、明確なプロトコルを整備していると語り、冷却システムの設計段階から運用と保守性を念頭に置く必要があることを強調しました。