ネットサービス

記録的熱波によりGoogle CloudとOracle Cloudの2つのクラウドサービスがほぼ同タイミングで停止


2022年7月の第3週頃から、ヨーロッパを過去に前例のないレベルの深刻な熱波が襲っており、スペインやポルトガルでは熱波の影響で1700人以上が死亡しました。この熱波は人だけでなくデジタル機器にも影響をおよぼしており、Google CloudやOracle Cloudといったクラウドサービスが停止する事態にまで発展しています。

Google Cloud Service Health
https://status.cloud.google.com/incidents/fmEL9i2fArADKawkZAa2


Multiple Services | UK South (London) | CN-764094 - OCI Status
https://ocistatus.oraclecloud.com/#/incidents/ocid1.oraclecloudincident.oc1.phx.amaaaaaavwew44aa7zoskanlspjh4ll6wxhwxrbkbed4d4cnupxexzqzvlyq


UK heat wave causes Google and Oracle cloud outages
https://www.bleepingcomputer.com/news/security/uk-heat-wave-causes-google-and-oracle-cloud-outages/

Google, Oracle cloud servers suffer outage in UK heatwave • The Register
https://www.theregister.com/2022/07/19/google_oracle_cloud/

ヨーロッパを襲う熱波により、過去一週間イギリスは記録的な猛暑に見舞われており、現地時間の2022年7月19日には史上初の摂氏40.2度という気温を記録しました。この猛暑により、GoogleとOracleのクラウドインフラストラクチャーをホストするためのデータセンターの冷却システムが機能しなくなり、Google CloudおよびOracle Cloudが停止するという事態に陥りました。


具体的には、GoogleとOracleはハードウェアコンポーネントが恒久的に損傷することで長期的にサービスが停止してしまうことを防ぐためにデータセンターをシャットダウンする決定を下し、その代わりにクラウドサービスが停止することになった、という流れです。

最初にクラウドサービスが停止したのはOracleで、同社は現地時間の19日11時30分頃にデータセンターでの冷却システムの障害を報告し、「重要ではないハードウェア」の電源を落としたと説明しています。Oracleは「この地域(イギリス)の季節外れの気温により、サウスロンドンにあるデータセンター内の冷却インフラストラクチャーのサブセットで問題が発生しました。これにより、制御されていないハードウェア障害を防ぐために、サービスインフラストラクチャーのサブセットの電源を切る必要がありました」と、クラウドサービスが停止した理由を説明。この対処について、Oracleは「この措置はお客様への長期的な影響の可能性を制限することを目的として行われました」とも記しています。


Oracleの報告から約2時間が経過したのち、Googleのヨーロッパ西2サーバーをホストしている建物の中で冷却システムが障害を起こし、同じようにクラウドサービスが停止する事態となりました。Googleは障害について、「リージョンeurope-west2のゾーンeurope-west2-aをホストする建物のひとつで冷却関連の障害が発生しました。これにより、対象ゾーンの容量に部分的な障害が発生し、仮想マシン(VM)が終了し、一部の顧客のマシンが失われました」と説明しています。

さらに、Googleは「我々は冷却システムをオンラインに戻し、当該ゾーンでの容量を作成するために懸命に取り組んでいます。ゾーンeurope-west2-aでのさらなる影響は予想されておらず、現在実行中のVMは影響を受けないはずです。複製された永続ディスクデバイスのごく一部はシングル冗長モードで実行しています」と述べました。

なお、Googleもマシンの損傷と長時間の停止を防ぐために、ゾーンの一部のマシンの電源を切り、Google Compute Engine(GCE)のプリエンプティブ起動を制限したと発表しています。

この記事のタイトルとURLをコピーする

・関連記事
Cloudflareが2022年6月21日に発生した大規模ネットワーク障害について説明 - GIGAZINE

AWSで大規模障害が発生しAmazonの荷物配達にも影響 - GIGAZINE

Oracle Cloudが全世界でダウン、約1時間半で復旧 - GIGAZINE

任天堂やNetflixに影響を与えたAWSの大規模障害について公式が説明 - GIGAZINE

Amazonのクラウドサービスで日本に続きアメリカで障害が発生し顧客データが全損する事態が発生 - GIGAZINE

in ネットサービス, Posted by logu_ii

You can read the machine translated English article here.