AmazonのCloudFrontの障害規模はどれくらいだったのか?

By BFLV

Amazonの「CloudFront」は、大容量アプリケーション・音楽・動画・オンラインゲームなどのブロードバンドコンテンツの配信を安定かつ低コストで行うためのコンテンツ配信ネットワーク(CDN)と呼ばれるものです。

そんなCloudFrontのDNSにて障害が発生し、CloudFront経由で配信されていたさまざまな画像などのコンテンツが表示されなくなる、という恐ろしい事態が発生。

Instagramなどの大手ウェブサービスにもその影響があり、サイト上に何も表示されないという非常事態に。

Amazonにも影響があった模様。

この障害がどれくらいの規模のものだったのかを、マルチCDNサービスを提供する「TurboBytes」が自社ブログ内で示しています。

Global outage of AWS CloudFront CDN on Nov 26 2014 - TurboBytes
http://www.turbobytes.com/blog/cloudfront-cdn-global-outage/


CloudFrontの障害が起きたのは、日本時間で2014年11月27日の9時15分から約90分間。障害発生から45分の間、AWSのステータスページではCloudFrontの障害発生を以下の様にユーザーに通知しており、「大問題」というよりはただの「情報」としてユーザーに通知していました。


しかし、実際には多くのサイト上からコンテンツやサイトの構成要素であるアイコンなどが表示されなくなり、さらにはサイトに表示されているバナー広告や訪問者数のカウンターなどまで表示されなくなりました。この障害により、かなりの数のコンテンツがCloudFront経由で配信されている、ということが明らかになりました。

オンラインショップの「Cotton On Asia」は、CloudFrontの障害時には非常に簡単明瞭なサイト表示に変化していました。

通常時のCotton On Asiaのサイト表示は以下の様な感じ。


TurboBytesでは自社サービスに他CDNのデータを活用するために、常に複数のCDNのパフォーマンスをリアルタイムでモニターしているそうで、CloudFrontの障害時の様子もパフォーマンスもしっかりモニターしていたそうです。TurboBytesのシステムは、15KBのコンテンツをCDNからロードしようとした際に、ロードに5秒以上かかると「ロードが失敗」したと判断するそうです。

このルールに沿って出力されたCDNのパフォーマンスを示すグラフが以下のもの。縦軸はTurboBytesのモニターシステムがデータのロードに失敗したと判断した割合を示したもので、他のCDNと比較すれば障害時にCloudFront(青線)がいかにコンテンツの配信に失敗しまくっていたのかがよく分かります。


TurboBytesのリアルタイムモニターシステムは、完璧に詳細なデータを収集できるわけではありません。しかし、全てのデータはオンライン上から集められているもので、ほとんどのタイミングでCloudFrontのDNSが反応していなかったことは明らか。

以下のグラフは縦軸にDNSの反応時間(ms)の平均値を示したもの。CloudFrontは普段から他CDNよりも反応時間が長く、障害発生時には最大で通常時の10倍以上にまで伸びていたことが分かります。


以下のチャートは、CloudFront経由でデータのロード(15KBのデータを5秒以内にロードすること)に成功した際を青線、失敗した際を赤線で示したもので、障害発生時からの75分間はデータの読み込みに失敗しまくりであることがよく分かります。

・関連記事
Dropboxが約2日間にわたってダウンし使えなくなった原因とは? - GIGAZINE

AmazonのアプリがGoogle Playから削除されてすぐに復活したわけとは? - GIGAZINE

なぜAmazonプライムは約2000円もの値上げができるのか? - GIGAZINE

元Amazon社員が明かす、”最強の捕食者“Amazonのビジネスモデルとは? - GIGAZINE

Amazon巨大倉庫の信じられない規模のブラックフライデー作業風景 - GIGAZINE

66

in ネットサービス, Posted by logu_ii