AI

VRAM1.5TBのAI用クラスターをMac Studio×4台&RDMA over Thunderboltで実現するとこうなる


エンジニア兼YouTuberのジェフ・ギアリング氏が、Macを低遅延で連結できるmacOS 26.2の新機能「RDMA over Thunderbolt」をテストするため、Appleから提供された4台のM3 Ultra搭載Mac Studioで構成されるAI用クラスターの検証を行いました。

1.5 TB of VRAM on Mac Studio - RDMA over Thunderbolt 5 | Jeff Geerling
https://www.jeffgeerling.com/blog/2025/15-tb-vram-on-mac-studio-rdma-over-thunderbolt-5

Apple didn't have to go this hard... - YouTube


Appleから提供されたM3 Ultra搭載のMac Studio。うち2台は32個のCPUコアと512GBのユニファイドメモリ、8TBストレージを備えた最上位構成で、残り2台はユニファイドメモリ256GB・4TBストレージ。これら4台を合わせたクラスター全体のユニファイドメモリは1.5TBに達し、4台分のコストは合計でおよそ4万ドル(約620万円)弱になります。


インターフェース面では、Mac Studioは10ギガビット・イーサネットポートに加えて5つのThunderbolt 5ポートを搭載しており、Appleによればこれら全てのポートでRDMA over Thunderboltが利用可能です。


Mac Studioを収容するためのラックとして、ギアリング氏はDeskPiから提供されたTL1という新しい4本柱のミニラックを活用しています。このミニラックという概念は、ラックマウント機器の利点を備えつつ、デスクの上や部屋の隅に収まるコンパクトなフォームファクタを実現することを目的としているとのこと。


ここで最も厄介な問題となるのが電源ボタンの配置。Mac Studioの電源ボタンは背面向かって右側、丸みを帯びた角に位置しているため、ラックに収めるとボタンの操作が極めて難しくなります。ギアリング氏が以前使用していたデスク用ラックマウントでは前面からボタンを押すための複雑なアーム機構が必要でしたが、今回のミニラックは側面が開放されているため、横から手を入れてボタンを押すことができます。


一方で、筐体前面にポートが配置されているので、管理用のキーボードやモニタを接続する際の利便性が確保されています。また、多くの小型PCは、本体を小さく見せるために巨大なACアダプタを外部に追い出しているのに対して、Mac Studioは内部に電源を完結させているため、ラック内の配線管理が煩雑になりにくいというメリットがあります。


ギアリング氏は、今回のMac Studioクラスターの性能を検証するにあたり、比較対象として、2つのAIデスクトップシステムを選んでいます。1つはNVIDIAのDGX Sparkと同等のチップを搭載しつつ、より優れた冷却性能を持つDell Pro Max with GB10です。このシステムは今回のテスト構成で約4000ドル(約63万円)となっています。


もう1つがAMDのAI Max+ 395チップを搭載したFramework Desktopのメインボードを使用したシステムで、こちらの価格は約2200ドル(約32万4000円)です。


まずはGeekbench 6でのシングルコア(水色)とマルチコア(紺色)の比較は以下の通り。2世代前のCPUコアを搭載しているM3 Ultra Mac Studioが、Dell Pro Max with GB10やFramework Desktopを上回る結果となりました。


倍精度(FP64)でのテストでは、M3 Ultra Mac Studioは1TFLOPSを越え、Dell Pro Max with GB10のほぼ2倍、Framework Desktopの4倍以上をマークしています。


CPU効率について、ギアリング氏は「これはAppleのチップ全般に言えることですが、素晴らしい」と評価。


また、M3 Ultra Mac Studioのアイドル時の消費電力は10W未満だとのこと。


AI推論テストにおいては、単体でもMac Studioの優位性が顕著です。Llama 3.2 3Bを用いたテストでは、Mac Studioが毎秒154.6トークンを記録したのに対し、Dellは毎秒97.9トークン、Frameworkは毎秒88.1トークンに留まりました。


さらに大規模なLlama 3.1 70Bでは、Mac Studioが毎秒14.1トークンを維持した一方で、他2つのシステムは毎秒約5トークン以下へと大幅に低下しました。


特にDeepSeek R1などの超大規模モデルに至っては、他2つのシステムでは単体ノードでの実行すら不可能であり、Mac Studioの持つ巨大なユニファイドメモリの優位性が明確になっています。


ただし、Mac Studioクラスターのコストは1台当たりに換算すると約9500ドル(約150万円)で、他2つのシステムと比較してもかなり高価であることには留意すべき。


クラスター化によるスケーリング性能についても詳細な検証が行われました。HPLを用いたテストでは、単体ノードの1.3 TFLOPSに対し、4台のクラスター構成では3.7 TFLOPSを記録し、約2.8倍の高速化が確認されています。これはクラスター内の2台が他と比べて半分のメモリ容量しかないことを考慮すると、期待値に近いスケーリング性能と言えます。


一方で、Thunderbolt 5を用いた通信ではTCP通信を用いた場合、高負荷時にシステムがクラッシュし再起動する不安定な挙動も見られました。


分散AI推論におけるRDMA over Thunderboltと従来のTCP通信の比較検証では、ネットワークの遅延時間とスケーラビリティの面で決定的な差が確認されました。なお、RDMA over Thunderboltを活用してクラスターを構築するために、ギアリング氏は複数のデバイスをネットワーク接続してAI処理用のクラスターを作れるシステム「exo」を採用しています。

スマホやPCなど家の中の計算資源をかき集めて自分用AIクラスターを構築できる「exo」 - GIGAZINE


従来のTCPベースの接続ではメモリアクセスのレイテンシが300マイクロ秒程度であったのに対し、RDMA over Thunderboltを有効にすることで50マイクロ秒未満まで劇的に短縮されています。この低遅延化により、複数のMac Studioに分散されたメモリがあたかも一つの巨大な共有メモリプールのように振る舞うことが可能になります。


推論速度の検証結果を見ると、通信プロトコルの違いがパフォーマンスのスケーリングに与える影響が明確に現れています。従来のTCP接続を利用するllama.cppのRPC方式では、計算ノードを追加するほどネットワークのオーバーヘッドが蓄積し、かえって推論速度が低下する傾向が見られました。

例えばQwen3 235B A22Bモデルを用いたテストでは、llama.cppは1ノード時の毎秒20.4トークンから4ノード時には毎秒15.2トークンまで速度が落ち込んでいます。これに対し、RDMA over Thunderboltを有効にしたexo環境では、1ノード時の毎秒19.5トークンからノード追加に伴って速度が向上し、4ノード構成では毎秒31.9トークンという高いスループットを記録しました。


さらに6710億パラメータという巨大なモデルであるDeepSeek V3.1においても同様の傾向が確認されており、exo環境では4ノード構成で毎秒32.5トークンに達し、llama.cpp(TCP)の毎秒14.6トークンに対して2倍以上の性能差をつけています。


また、今回の検証で最大規模となる1兆パラメータ(アクティブ320億パラメータ)のKimi K2 Thinkingモデルでは、exo環境だと4ノード構成で毎秒28.3トークンを記録し、実用レベルの対話速度を実現しています。


ただし、今回の検証で使用されたexoはプレリリース版であり、テストの過程で多くのバグが修正されたものの、安定性の面では依然としていくつかの課題が残っています。特にThunderbolt経由のRDMAは新しい技術であることから、正常に動作している間は非常に優れたパフォーマンスを発揮するものの、一度問題が発生するとシステムが制御不能になる不安定さも併せ持っているとのこと。


こうした動作の不安定さに備え、ギアリング氏は構成管理ツールのAnsibleを事前にセットアップしていました。これにより、クラスター全体が停止した際にも、手動で一台ずつ操作することなく、スクリプトを通じて迅速に全ノードのシャットダウンや再起動を行えたことが、検証作業を継続する上での大きな助けとなったとギアリング氏は述べています。

ギアリング氏は、exoの開発チームが一時期活動を休止していたことや、Appleとの開発プロセスが不透明であるがゆえに、ハードウェアとソフトウェアの両面で発展途上の段階にあると指摘しました。

この記事のタイトルとURLをコピーする

・関連記事
複数台のMacを連結してAIクラスターを作れる機能が「macOS Tahoe 26.2」で追加される - GIGAZINE

「小型デスクトップPCを4台組み合わせてAIクラスタを構築する」という試みの結果は? - GIGAZINE

Raspberry PiがAI処理用追加モジュール「Raspberry Pi AI HAT+」を発表 、処理性能は26TOPSで複数のAIを同時実行可能 - GIGAZINE

Appleの機械学習チームがAppleシリコンで機械学習モデルをトレーニング・デプロイするためのフレームワーク「MLX」をGitHubで公開 - GIGAZINE

iPhoneやMacで重量級画像生成AIをローカル実行できる「Draw Things」を使ってみたよレビュー、Qwen Imageのような大型モデルも実行可能 - GIGAZINE

in AI,   動画,   ハードウェア,   ソフトウェア, Posted by log1i_yk

You can read the machine translated English article This is what happens when you create a 1….