2025年01月16日 12時00分ハードウェア

半導体チップのグレードはどのように決まり、どうすれば高グレードの製品の生産量を高められるのか

「地球上で最速のAIチップ」をうたうAI向け半導体チップを開発する企業のCerebrasが、「どのようにして半導体チップの歩留まりを高めたのか」についてブログで解説しました。

100x Defect Tolerance: How Cerebras Solved the Yield Problem - Cerebras
https://cerebras.ai/blog/100x-defect-tolerance-how-cerebras-solved-the-yield-problem

半導体チップの製造は非常に繊細で、一定確率で欠陥が発生してしまいます。半導体チップのサイズを大きくすれば性能を向上させることが可能ですが、欠陥のある領域を含んでしまう確率が高まって歩留まりが急速に低下するというトレードオフがあり、初期のマイクロプロセッサの大きさは「どの程度の歩留まりを確保したいか」によって制限されていました。

2000年代に入り、チップごとに複数のコアを持つマイクロプロセッサが登場すると、全てのコアを同一かつ独立した設計にすることで、1つのコアに欠陥が発生しても残りのコアを引き続き動作させることができるようになりました。Intel、NVIDIA、AMDなどの企業はこの「コアレベルの冗長性」戦略を採用し、例えばIntelが初めてデュアルコアとして設計したIntel Core Duoは、片方のコアに欠陥があるとシングルコア製品のIntel Core Soloとして販売されました。

現在でも「コアレベルの冗長性」は広く使用されており、CPUでは全てのコアが有効なものをEPYC 9654やXeon 8490のような「最上位モデル」、一部のコアに欠陥が発生したものをEPYC 9534やXeon 8480+のような「廉価バージョン」として販売するのが一般的です。データセンター向けGPUは巨大すぎるため、最上位モデルでも一部のコアが無効化されています。

NVIDIAのH100は814平方ミリメートルという面積を持つ巨大なGPUであり、欠陥を発生させずに製造するのは至難の業です。そこで、NVIDIAはH100を設計する際、コアの管理単位であるSM(ストリーミング・マルチプロセッサ)を物理的に144個配置し、実際に有効化するSMの量を132個に抑えることで最大12個のSMに欠陥が発生しても製品として販売できるようにしました。

かつては814平方ミリメートルもの面積を持つ半導体チップの製造は歩留まりの問題で経済的に成立しませんでしたが、記事作成時点では欠陥を許容する設計を採用することで主流の製品となりました。欠陥が発生した際にはその欠陥を含むコア全体が使用できなくなるため、Cerebrasは「できるだけコアのサイズを小さくすることで欠陥許容度を向上させることができる」と説明しています。

Cerebrasでは半導体チップの設計において、「できるだけコアを小さくすること」に重点を置き、0.05平方ミリメートルのサイズでコアを設計しました。これはH100のコアサイズの約100分の1で、欠陥が発生した際に無効化される領域も約100分の1になり、実質的にCerebrasのWSE-3はH100よりも100倍欠陥に耐性があると言えます。

さらに、Cerebrasではコア間の接続を動的に再構成可能な高度なルーティング設計を開発したとのこと。欠陥が発生した際にシステムが冗長通信経路を利用して自動的に欠陥を回避するようになっています。

実際に従来のGPUとCerebrasが開発したWSEチップの製造の様子を比較すると以下の通り。円がシリコンウェハーを表しており、左が従来のGPU、右がWSEです。従来のGPUでは1枚のウェハーで複数のチップを製造しますが、WSEは単一の巨大なチップとして製造されます。

記事作成時点のTSMCの製造プロセスにおいて、5nmノードの場合、1平方ミリメートルあたり約0.001個の欠陥が発生するとのこと。この比率で欠陥が発生した場合、従来のGPUでは361平方ミリメートルのスペースを無効化せざるを得ませんでしたが、WSE-3ではコアサイズが小さいため2.2平方ミリメートルのスペースを無効化するだけで良いわけです。

こうして、Cerebrasは従来のGPUの約50倍にもなる巨大な面積を持つチップを、93％という高いシリコン使用率を達成しつつ製造することに成功しました。

実際にCerebrasが展開するAI推論サービスではNVIDIA H100を使用する場合に比べて22倍高速に推論でき、さらにコストも約5分の1になるというすさまじい数字をたたき出しています。

CerebrasがNVIDIA H100の22倍高速な爆速AI推論サービスを発表、デモページも公開されたので使ってみた - GIGAZINE