メモ

Amazonクラウドで障害発生、ImgurやHootSuiteなど有名サイトが一時ダウン

By xcorex

Amazon.comが提供しているクラウドサービス「Amazon EC2」のオプションであるAmazon Elastic Block Store(Amazon EBS)で障害が発生、ソーシャルメディア管理ツールのHootSuiteや画像共有サービスimgurなどの有名サイトが一時ダウンするという事態になりました。この障害は約7時間で復旧しました。

Amazon EBS failure brings down Reddit, Imgur, others



Amazon Cloud Goes Down Again, Breaks Foursquare and Others | Wired Enterprise | Wired.com



クラウドサービスには、ユーザから見るとサーバ管理やメンテナンスに気を使う必要がなくなるというメリットが、サービスを提供する側にも規格の共通化やリソース利用率の向上によるコスト低減とサービス料を安価に設定できるというスケールメリットがあり、ウェブサービス提供においても活用されています。

今回、Amazon.comでは、北バージニアにあるデータセンターで複数の障害が発生、HootSuiteimgurのほか、ソーシャルニュースサイトreddit、SNSのfoursquare、クラウドプラットフォームのHerokuMinecraft、ソーシャルコーディングサイトGitHubなどがダウンしたり、影響を受けるなどしました。

問題の主な流れは以下の通り。

・2時38分(現地 22日10時38分)
北バージニアのデータセンターで、Amazon EC2の「US-EAST-1」リージョンに該当する一部のEBSボリュームでパフォーマンス低下の報告があり、調査を開始

・3時11分(現地 22日11時11分)
パフォーマンス低下を確認、該当するEBSボリュームを使用しているインスタンスは影響を受けることに。

・3時26分(現地 22日11時26分)
「該当するEBSボリュームを使用している場合は、新規インスタンス立ち上げが失敗する」とお知らせ。復旧に向けて作業が約3時間ほど続き、状況には変化がありません。また、この間にAmazon Relational Database ServiceやCloudSearch、CloudWatch、ElastiCacheなどでもエラーが発生。EBSの復旧と並行して作業が行われました。

・6時20分(現地 22日14時20分)
障害の発生したEBSのうち、およそ半分ほどを復旧。

・7時48分(現地 22日15時48分)
回復率が向上し、あとちょっとで全復旧するとのお知らせ。この時点で、他のエラーはほぼ復旧済み。

・8時42分(現地 22日16時42分)
影響を受けていたEBSボリュームでも新規インスタンス立ち上げができるまでに回復。

・9時44分(現地 22日17時44分)
ほぼ全てのEBSボリュームの障害を復旧。

AWS Service Health Dashboardでステータスを確認すると、11時時点でまだ黄色いアイコン(何らかの障害が残っている)がついており、完全復旧とはいえない状態。


Herokuでは一部始終をリポートしており、Heroku Statusでは以前からのサーバステータスと比べることで、今回の障害の影響を受けた時間がどれだけ長かったのかがわかるようになっています。


同じように影響を受けたturntable.fmは、公式ツイッターアカウントでダウン報告をツイート。記事を執筆した10時30分時点で、まだサイトは元通りにはなっていません。
Twitter / turntablefm: Alright, we are down. :( We're ...


Amazonの北バージニアデータセンターでは7月にも障害が発生しており、オンラインレンタルのNetflix、写真共有サービスのInstagramPinterestなどが影響を受けました。

Amazon Blames Generators for Blackout That Crushed Netflix | Wired Enterprise | Wired.com


この記事のタイトルとURLをコピーする

・関連記事
Amazonがクラウドに関する「都市伝説」に反論、「AWSの真実」とは? - GIGAZINE

Intel副社長がクラウドの講演「次の10年を支えるデータセンター基盤とは」 - GIGAZINE

月額1GBあたり1円以下で上限無制限に利用可能なオンラインストレージ「Amazon Glacier」 - GIGAZINE

Amazon EC2上のサーバー開発と運用方法をARMORED CORE Vのインフラで学ぶ - GIGAZINE

無償化を発表した「さくらのクラウド」、システム安定のために利用制限を開始 - GIGAZINE

in メモ,   ネットサービス, Posted by logc_nt

You can read the machine translated English article here.