ネットサービス

インターネットを大混乱に陥れたAmazonのAWSがダウンした理由は「キーの打ち間違い」

By N i c o l a

2017年3月1日未明にAmazonが提供するクラウドストレージサービスの「S3」で大規模な障害が発生し、インターネット上では大混乱が巻き起こりました。約4時間も続いた障害の検証レポートがAWSにより公開され、障害の原因がキーの打ち間違いであったことが判明しました。

Summary of the Amazon S3 Service Disruption in the Northern Virginia (US-EAST-1) Region
https://aws.amazon.com/jp/message/41926/


How a single typo brought the web to its knees
https://thenextweb.com/insider/2017/03/02/single-typo-brought-web-knees/

Amazon AWS S3 internet outage caused by engineer typing wrong command - Business Insider
http://www.businessinsider.com/amazon-aws-internet-outage-caused-by-engineer-typing-wrong-command-2017-3

AWSの検証レポートによれば、障害の原因はエンジニアがキーを打ち間違えたことにあったそうです。あるエンジニアがS3のサブシステムから少数のサーバーを停止するコマンドを入力しようとしたところ、間違えたコマンドを入力してしまい、予定よりも多くのサーバーが停止してしまいました。サーバーを停止するコマンド入力自体は毎日行うルーチンワークだったのですが、これがインターネットで大きな混乱を発生させる原因になってしまいました。


S3の大規模障害の詳細は以下の記事から確認可能です。

AmazonのAWS「S3」に障害が発生してネットは大混乱、復旧されるも影響は残っている模様 - GIGAZINE


停止されたサーバーの中には2つのS3サブシステムをサポートしているサーバーがあり、その1つは全てのS3のメタデータや位置情報を管理するインデックスサブシステムと呼ばれるもの。もう1つは新しいストレージの割り当てを管理するサブシステムで、インデックスサブシステムが動作していないと正常に機能しないものだったとのこと。こうして発生した障害から復旧するためにはシステムの再起動が必要になったのですが、AWSは長期にわたって再起動を実施したことがなく、復旧までは思いのほか時間がかかったそうです。

AWSはコマンドの誤入力の原因となったツールを改善し、動作を遅くするように修正。さらに、最小限のレベルのサブシステムのみを停止させる安全措置をとるとのこと。検証レポートの最後には「このような大規模障害を起こし多くのユーザーにご迷惑をおかけし大変申し訳ありませんでした」と綴られています。

この記事のタイトルとURLをコピーする

・関連記事
AmazonのAWS「S3」に障害が発生してネットは大混乱、復旧されるも影響は残っている模様 - GIGAZINE

IntelのAtom C2000シリーズを採用するサーバーが突然死する危険性、Intelは対応中も詳細は公表せず - GIGAZINE

ソフトウェアの修正プログラムのことをなぜ「パッチ(当て布)」と呼ぶのか? - GIGAZINE

空軍が数年間かけて集めた10万件もの記録がパソコンのクラッシュで消滅 - GIGAZINE

「ポケモンGO(Pokémon GO)」のサーバーが落ちているかどうかがわかるサイトまとめ - GIGAZINE

in ネットサービス, Posted by darkhorse_log

You can read the machine translated English article here.