ハードウェア

Steam Deckに搭載されたAPUのスペックとは?


Valveの携帯型ゲーミングPC「Steam Deck」にはAMDの「Zen 2」と「RDNA 2」をベースにしたSteam Deck専用のカスタムAPU「AMD Custom APU 0405」が搭載されています。このAPUについて、ガジェット系ブログのChips and Cheeseが解説しました。

Van Gogh, AMD’s Steam Deck APU – Chips and Cheese
https://chipsandcheese.com/2023/03/05/van-gogh-amds-steam-deck-apu/

Zen 2の発売は、AMDにとって決定的な瞬間でした。AMDのシングルスレッド性能がようやくIntelの最高性能に真っ向から対抗できるようになり、デスクトップCPUに最大16コアを導入し、消費者に非常に強力なマルチスレッド性能を提供するという実力をAMDが示しました。

Zen 2は柔軟性もあり、より低い消費電力で動作することを求める端末にもうまく対応します。次世代のZen 3が2020年後半に発売された後もZen 2は引き続き多数の製品で活躍しましたが、Zen 2が使われた代表的な製品の1つがSteam Deckです。そんなSteam Deckの背面カバーを外したところがこんな感じ。


TSMCの7nmプロセスで製造されたGPUアーキテクチャ「RDNA 2」と、CPUアーキテクチャの「Zen 2」を組み合わせたAPUは一般的に「Van Gogh」というコードネームで知られています。このVan Goghのうち、AMDがSteam Deck向けに提供しているチップは「AMD Custom APU 0405」という名前が付けられています。


Steam Deckは16GBのLPDDR5を搭載しており、これらはそれぞれ8GBの容量を持つ2つのSamsung製チップを使用しています。このチップは4つの32ビットチャンネルに配置され、5500MT/sで動作するため、理論上の帯域幅は88GB/sとなるはずです。マザーボードは「Valve Jupiter」と呼ばれており、APUをx4 M.2スロットに接続し、microSDカードコントローラーとRealtek 8822CE WiFIカード向けにx1 PCIeリンクを提供しています。

APUへの電源供給は、Monolithic Power Systemsの電源モジュール「MP2845」によって制御される3つのVRMステージによって行われます。Chips and Cheeseいわく、VRMはおそらく2段のコンポーネントと別の1段のコンポーネントに分割されているとのこと。そのためVRMはかなり弱いですが、APUの上限が16Wであることを考えれば、大きな問題ではないそうです。その電力はCPUとGPUに柔軟に配分され、例えばGPUにバインドされたシーケンスでは、GPUが10W以上の電力を消費し、CPU側はベースクロックよりも低いクロックで2~3Wの電力を消費することになります。CPUの場合は、その消費電力が逆になります。Steam Deckに搭載されたVRM回りを拡大して見てみるとこんな感じです。


シミュレーションゲームをプレイしている最中の消費電力量を見てみると、GPUに大きく電力が割り当てられているのが分かります。


このような柔軟な電力割当は、ゲームがCPUまたはGPUのいずれか一方にバインドされた場合にうまく機能します。しかし、CPUとGPUの両方を一緒に使って計算スループットを最大化しようとする場合は、パフォーマンスが低下してしまうそうです。一般的にはレンダラーや写真処理アプリのようなものでパフォーマンスの低下が起こり得ますが、Steam Deckでそのような行為を行うことはほぼないため、CPUとGPUの両方を同時に使うゲームでなければ問題ありません

Van Goghは4つのZen 2コアを1つのクラスタ(CCX)に搭載し、ブーストクロック3.5GHz、ベースクロック2.8GHzを実現しています。デスクトップとサーバー向けのZen 2はCCXあたり16MBのL3キャッシュを搭載しているのが特徴で、遅いメモリからコアを保護し、パフォーマンスを向上させることができます。一方でVan GoghのCCXは4MBのL3キャッシュしか持っていません。

Chips and Cheeseのテストでは、Steam DeckのL1キャッシュとL2キャッシュはZen 2 CPUに期待される通りの性能を打ち出しましたが、L3容量は他機種向けと比較してL3キャッシュが大幅に不足していることが確認されています。キャッシュとメモリの性能をテストした結果が以下の通りで、Governorをデフォルトのschedutilにしたものが赤線、パフォーマンスにしたものが点線、Windows 11にしたものが緑線で示されています。


L3の問題は帯域幅のテストで解消されたようで、WindowsやLinuxを使っても同様の結果が出ており、全スレッド負荷で200GB/sを超えるL3帯域幅が確認されています。クロックスピードの違いから、他のZen 2よりも若干低いものの、帯域幅は問題なさそうだとChips and Cheeseは評価しています。しかし、LPDDR5では残念な結果となってしまったとのこと。さまざまな要因によって、どのDRAM構成でも理論上の帯域幅をフルに引き出すことは困難ですが、緑線で示された「25GB/s」というのはかなり遅め。


Zen 2を搭載したAMDのもう1つのAPU「Renoir」と比較してみると違いが顕著に現れ、DDR4-3200のセットアップ(オレンジ線)はVan Goghのセットアップ(緑線)に圧倒的な差をつけているのが分かります。


LPDDR5のセットアップは、2015年後半のDDR4のセットアップと同等の帯域幅を提供する一方で、CPUに不要なメモリレイテンシを負わせることになります。Chips and Cheeseは「これは、優れたDDR3のセットアップからの大きなステップアップではありません。さらに、CPUのL3キャッシュが小さいため、デスクトップやサーバーのZen 2実装に比べて、コアがメモリから隔離されていないことがこの問題を悪化させています」と指摘しています。

「Cyberpunk 2077」プレイ時のメモリ帯域幅の使用状況を見ると、さらに詳しいことが分かります。レイトレーシングをオフにし、フレームレートは100FPS前後で推移しているときの動作を見てみると、経過時間(Elapsed Time)が経過するほど求められるメモリ帯域幅が増加し、すぐに25GB/s以上の速度が必要になることが確認できます。L3容量が少ないということはメモリ帯域幅の要求がさらに高くなるということで、Van GoghはCPUコアを最大限に活用するように最適化されていないのは明らかです。


一般的に、CPUは常に最大クロックで動作しているわけではありません。特にモバイル機器ではその傾向が顕著で、代わりに負荷に応じてクロックを上げていきます。このクロック上昇のプロセスには時間がかかることがありますが、ほとんどの端末は高い応答性を実現するためにできるだけ早く最大クロックに移行するのが特徴です。

しかし、Steam Deckはそうではありません。Steam Deckのクロックスピードは1.4GHzから始まり、0.27ミリ秒で1.7GHzに到達します。これは良いスタートであり、APUがかなり速くクロック変更を命令できることを示していますが、1.7GHzのまま数百ミリ秒経過すると、徐々にクロックが上昇し、最大クロックに達するのはほぼ1秒後になります。


Chips and Cheeseは「このようなブースト動作は、クライアントデバイスとしては最悪です」と指摘。他のZen 2システムと比べても、かなりレスポンスが悪く感じられるはずとしています。この動作は意図的なものであり、応答性を犠牲にしてでもバッテリーの寿命を延ばすために、このようにしたのだと考えられるそうです。

Steam DeckのGPUには、「AMD Custom GPU 0405」という名前が付けられています。これはRDNA 2由来のGPUで、512本のFP32レーン、つまり4つのWGPを持つらしいことが分かっており、動作クロックは最大1.6GHzと、RDNA 2 GPUとしては非常に低いクロックスピードだそうです。


AMD Custom GPU 0405は、RDNAスタイルのキャッシュ・セットアップを採用しており、RenoirのVega iGPUと比較するとキャッシュ・レベルが新たに追加されています。これには128KBのL1に支えられた16KBの第1レベルベクターキャッシュとスカラーキャッシュがあり、Renoirと同様、Van GoghはGPUをDRAMから切り離すために不釣り合いなほど大きな1MBのL2キャッシュを使用しています。AMDのRX 6900 XTと同じL2キャッシュ対演算比率を維持した場合、4つのWGPを搭載したGPUのL2は512KB未満となります。

レイテンシを計測したテストによれば、AMD Custom GPU 0405(緑線)はRDNAのアーキテクチャの優位性を存分に発揮しており、ベクターのメモリアクセスレイテンシはVegaよりはるかに優れていることが分かったとのこと。スカラキャッシュへのアクセスレイテンシはほぼ同じで、スカラ側ではVegaの方が競争力がありますが、両iGPUのL2レイテンシはほぼ同じなので、RDNAの128KB L1がまだ優位に立つはずだとChips and Cheese。「128KBのL1ミッドレベルキャッシュの利点を得ながら、同じL2レイテンシを維持できるのですから、ヴァンゴッホは素晴らしいです」と評価しました。


GPUの帯域幅テストでは、LPDDR5コントローラがついに名誉挽回を果たし、書類上の性能に近いものを達成しました。Custom GPU 0405は70GB/sを超える帯域幅で、RenoirのiGPUに対して圧倒的な帯域幅のリードを獲得しています。これは、Van Goghがゲームに特化した製品であるという宣伝と一致します。


Van Goghのような統合GPUはCPUの性能を重視するチップに組み込まれているため、しばしば帯域幅の制限に悩まされることがあります。そのため、Steam DeckではLPDDR5を採用し、コンソールに匹敵する演算量対帯域幅を実現しています。これは、GPUがCPUとメモリバスを共有している場合でも十分な帯域幅が利用可能であることを意味するとのことで、Van GoghのDRAM技術は、大規模な電力コストをかけずに小型GPUの帯域幅の要求を満たすのに十分な性能を持っているとChips and Cheeseは指摘しています。

Van GoghはCPUとGPUの間の転送速度も優れています。DDR4の帯域幅で制限されるRenoirよりもずっと高速で、PCIe 4.0に制限される「RX 6900 XT」よりも速いです。しかし、PCIeの帯域幅は極端に遅い構成になるまでゲーム性能に大きな影響を与えないため、この性能はゲーミング・プラットフォームではあまり重要ではありません。PCIe帯域幅は、GPUに作業をオフロードし、その結果に対してCPU側で処理を施してから次の処理を行うような計算アプリケーションには役立ちますが、Van Goghはそのために作られたものではありません。


Chips and Cheeseは「AMDのカスタムAPUは、非常に小さなコンソールチップの例として興味深いものです。PlayStation 5やXbox Series Xに搭載されているのと同様に、このCPUも低クロック、低キャッシュ、高メモリレイテンシーという問題に悩まされます。しかし、CPU性能は他のZen 2と比較して弱いとはいえ、Van Gogh単体のCPU性能はかなり信頼できるものです」と締めくくりました。

この記事のタイトルとURLをコピーする

・関連記事
携帯ゲーム機「Steam Deck」に「PCからゲームを高速転送する機能」が追加される - GIGAZINE

エルデンリングや塊魂をいつでもどこでも遊べる「Steam Deck」でいろんなゲームをプレイしてみた - GIGAZINE

AMDが3D V-Cacheを搭載したゲーマー向けRyzen 7000シリーズCPUを発表 - GIGAZINE

in ハードウェア,   ゲーム, Posted by log1p_kr

You can read the machine translated English article here.