メモ

AWSが停電でダウンし「一部のハードウェアがリカバリできない可能性」が通達される

by Web Summit

世界中で多種多様なインフラストラクチャサービスを提供するAmazon Web Services(AWS)はクラウドサービスにおいて世界シェアの32%を占めています。2021年12月22日、AWSが停電によってダウンし、SlackAsanaといったサービスが影響を受けたと報告されています。

AWS power failure killed some hardware and instances • The Register
https://www.theregister.com/2021/12/22/aws_outage/

AWSは企業にとってなくてはならないインフラですが、2021年12月に入って大規模障害が発生。任天堂やNetflix、Disney+、暗号資産取引所のCoinbase、コミュニケーションツールのSlackといった数多くのサービスの影響を与えました

任天堂やNetflixに影響を与えたAWSの大規模障害について公式が説明 - GIGAZINE


上記とは別に、2021年11月にはJavaのLog4jライブラリに存在していたリモートコード実行を可能にする脆弱性「CVE-2021-44228(Log4Shell)」が発見されており、これがAWSアカウントの乗っ取りに利用可能だと指摘されるなど、AWSのシステム管理者には数々の困難が立ちはだかっています。

AWSアカウントを「Log4Shell」で乗っ取る方法が報告される - GIGAZINE


そして2021年12月22日新たに、アメリカ・バージニア州北部にあるUS-EAST-1リージョンのUSE1-AZ4アベイラビリティーゾーンで停電が起こり、システムがダウンしたことが報じられています。

停電が起こったのは太平洋時間の午前4時35分。AWSはAmazon Elastic Compute CloudのIaaSサービスで起動の失敗やネットワークの問題が起こっていることを検知しました。その26分後、停電に見舞われたことを受け、AWSはワークロードをまだ電力を受けている他のクラウド移すことを顧客に推奨しました

5時39分には電力が復活し、徐々にサービスも復旧しだしましたが、6時51分には「ネットワークの問題が完全な復旧を邪魔している」と報告しています。なお、この障害によってSlack・Asana・Trelloなどのサービスが影響を受けました。

Trelloがダウン、落ちている。グラフの通り。ソースはhttps://t.co/uvycqdcJ8n pic.twitter.com/YY5jey8Y04

— 千里高校報道部・同窓会 - 関西コミティア63 (@ins_magazine)


またAWSステータスレポートには以下のように「電力が落ちた場合によく起こることですが、一部のハードウェアが回復できない可能性や、影響のあったEC2インスタンスやEBSボリュームを完全に回復させたりできない可能性があります。現状ではまだ断言できませんが、リカバリ中である少数のEC2インスタンスやEBSボリューム全てを回復できることは難しいと考えています」と表示されていたとのこと。

As is often the case with a loss of power, there may be some hardware that is not recoverable, which will prevent us from fully recovering the affected EC2 instances and EBS volumes. We are not quite at that point yet in terms of recovery, but it is unlikely that we will recover all of the small number of remaining EC2 instances and EBS volumes.


AWSは2021年9月にもUS-EAST-1リージョンの、12月15日にUS-WEST-1リージョンの障害を報告しています。AWSは、顧客に対し、単一のアベイラビリティーゾーンに依存しないよう呼びかけています。

この記事のタイトルとURLをコピーする

・関連記事
Amazonのデータセンターを爆破して「インターネットの70%の破壊」を企てた男が逮捕される - GIGAZINE

大規模な太陽嵐によって世界中のネットが遮断される「インターネットアポカリプス」が発生する可能性 - GIGAZINE

インターネット上のあらゆるサービスを稼働させ続ける運用保守エンジニアをねぎらうハッシュタグ「#hugops」とは? - GIGAZINE

AWSアカウントを「Log4Shell」で乗っ取る方法が報告される - GIGAZINE

インターネットの世界初広域障害発生事件の経緯とは? - GIGAZINE

in メモ, Posted by logq_fa

You can read the machine translated English article here.