2023年09月06日 17時00分ネットサービス

Microsoftのクラウドサービス「Microsoft Azure」が停電で一時ダウン、障害発生時は現場にスタッフが3人しかいなかったとMicrosoftが認める

現地時間2023年8月30日にオーストラリアのシドニーで、Microsoftのクラウドサービス「Microsoft Azure」のデータセンターで発生した停電によって、サービスが一時的にダウンする事態が発生しました。その後のMicrosoftの分析で、サービス停止時に現場にいた技術者が3人だけだったことが明かされています。

Azure status history | Microsoft Azure
https://azure.status.microsoft/en-us/status/history/

Microsoft blames outage on small staff, automation failures • The Register
https://www.theregister.com/2023/09/04/microsoft_australia_outage_incident_report/

Oracle Cloud, Netsuite, and Azure go down, hard, Down Under • The Register
https://www.theregister.com/2023/08/30/oracle_microsoft_cloud_australia_outage/

現地時間の2023年8月30日、オーストラリアのシドニーで発生したデータセンターの事故により、オーストラリアの一部でMicrosoft Azureのサービスが利用できなくなりました。Microsoftは影響を受けた顧客に対し、「オーストラリア東部地域で発生した停電により、いくつかのデータセンター内に配置された冷却ユニットがオフラインになりました」と報告しています。

さらにMicrosoftは障害の原因について「データセンターのチラーの故障によるものです」と説明。また「長時間にわたる冷却ユニットの停止によってデータセンター内の温度が上昇し、ハードウェアへの損傷が発生することを回避するために、一部のクラウドコンピューティングサービスに用いるユニットとストレージユニットを停止しました」と発表しました。

Microsoftの分析によると、停電の影響を受けたデータセンターには合計7台の冷却ユニットが存在し、停電発生時には5台が稼働中で、バックアップ用の2台がスタンバイ状態だったとのこと。停電が発生すると、Microsoftのスタッフは緊急時の対応手順を実行し、バックアップ用冷却ユニットを起動させる手はずとなっています。しかし、2023年8月30日の停電では、対応する冷却用ポンプがバックアップ用冷却機からの運転信号を受け取らなかったため、うまく動作しなかったことが報告されています。

Microsoftによると、バックアップ用冷却ユニットの起動失敗は想定外とのこと。Microsoftは「スタンバイ状態にあった冗長用冷却ユニットは2台ありました。1台は緊急時の対応によって正常に稼働しましたが、もう1台は一度は稼働したものの、数分以内に再び停止しました」と報告しています。

再起動の失敗に伴って、本来5台の冷却ユニットが動作するデータセンターをわずか1台の冷却ユニットで冷やす必要が生じました。そこでMicrosoftは「一部のサーバーをシャットダウンすることで熱負荷を軽減させる必要がありました」と述べています。

Microsoftの報告書では、停電発生から1時間後、現場の技術者チームがデータセンターの屋根に登って冷却ユニットを点検したことや、2時間39分後には冷却ユニットの製造元が現場に到着したことが明かされています。

一方でMicrosoftは「巨大なデータセンターにもかかわらず、夜間における人員の数は冷却ユニットを臨機応変に再起動するには不十分でした」と述べ、停電発生時に現場にいたのはわずか3人だったことを認めています。

Microsoftは「適切な措置が講じられるまで、一時的に夜間のチームの人数を3人から7人に増加させるとともに、再起動が必要な冷却ユニットに優先順位を付け、需要度が高い冷却ユニットの再起動を最初に実行するように、緊急時対応手順の規定を追加します」と述べています。

さらにMicrosoftはクラウドストレージがオンラインに戻るまでに時間を要した理由について、広範なトラブルシューティングを必要としていたものの、停電によってサーバーがダウンしていたため、診断ツールが関連データを見つけることができなかったことを明かしています。

Microsoftは「その結果、現場のデータセンター・チームはコンポーネントを1つずつ手作業で取外し、各ノードの再起動を妨げる特定のコンポーネントを発見するための調査を行いました」と報告。調査の結果、いくつかのコンポーネントは別のサーバーに移行する必要があったことを報告しています。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2023年09月06日 17時00分00秒 in ネットサービス, Posted by darkhorse_log

You can read the machine translated English article Microsoft's cloud service 'Microsoft….