ネットサービス

YouTubeやGoogle Cloudが激重になった大規模障害についてGoogleが詳細な原因を説明

by Google

2019年6月2日、Googleのネットワークで大規模な障害が発生し、一部地域でGoogle提供のサービスやGoogle Cloudを利用するさまざまなウェブサービスが利用できなくなったり動作が重くなったりする事態に発展しました。このような大規模な障害が発生した原因について、Google Cloudのエンジニアチームが公式ブログで解説しています。

An update on Sunday’s service disruption | Google Cloud Blog
https://cloud.google.com/blog/topics/inside-google-cloud/an-update-on-sundays-service-disruption

Google Cloud Status Dashboard
https://status.cloud.google.com/incident/cloud-networking/19009

アメリカ太平洋標準時で2019年6月2日に発生した障害は、日本では影響が少なかったものの、アメリカやヨーロッパの一部地域では、Google Cloud・YouTube・GSuiteといったGoogle提供サービス、DiscordやiCloudなどといったGoogle Cloudを利用するウェブサービスの使用に大きな影響を与えました。

Googleのクラウドで大規模障害が発生、YouTubeやGmailなど多くのサービスが影響を受ける - GIGAZINE


Google Cloudの監視チーム「Google 24x7」のヴァイスプレジデントであるベンジャミン・スロス氏は公式ブログの中で、「特定のリージョンのサーバーに適用するはずだった設定変更が、誤って隣接する複数リージョンのサーバーにも適用されてしまったことが原因だった」と説明しています。また、今回の事例は、管理ソフトの設定ミスとバグが組み合わさってしまったことも影響しているとのこと。

データセンター内で、Googleのマシンは複数の論理クラスタに分離されているとのこと。これらのクラスタには各クラスタごとに専用の管理ソフトが用意されていて、障害からの復旧、インフラストラクチャの変更、データセンターのメンテナンスイベントの自動実行などが可能となっているそうです。Googleのデータセンターでメンテナンスをイベントとして設定するときは往々にして世界規模のメンテナンスになるそうで、あるリージョンのサーバーだけをメンテナンスするということはまれだとのこと。

by Google

今回、特定のリージョンのサーバーで、メンテナンスのためにネットワークのコントロールプレーンを停止するようなイベントを設定したところ、6月2日11時45分にメンテナンスイベントが開始されると同時に、管理ソフトのバグによって隣接するリージョンのサーバーにも停止設定が適用されてしまったそうです。その結果、隣接する複数リージョンのサーバーで設定が上書きされてしまい、使用可能なネットワーク容量の半分以上を使用しなくなり、ネットワークの混雑を招いたとのこと。

Googleのエンジニアリングチームは障害発生から2分後に復旧作業を開始したとのこと。予定では数分で復旧が完了する見込みだったそうですが、ネットワークが混雑していたために管理ソフトのデバッグ作業で難航し、発生からおよそ1時間16分後にメンテナンスイベントを自動化するソフトがようやく停止されたとのこと。その後、エンジニアチームはコントロールプレーンとサポートインフラストラクチャを再度有効にし、改めてスケジュール設定を再構築して再配布。サーバーの再設定が完了したのが14時3分で、15時19分にネットワーク容量が回復し、16時10分にはすべてのサービスが再開されたとのこと。

by Google

今回の障害の影響として、YouTubeは1時間で2.5%の閲覧数減少を記録し、Google Cloudストレージは30%のトラフィック減少を記録したそうです。影響を受けたのは「ごく一部のユーザー」とのことですが、それでも何百万ものユーザーが電子メールを送受信できなかったとスロス氏は述べています。

この記事のタイトルとURLをコピーする

・関連記事
Googleのクラウドで大規模障害が発生、YouTubeやGmailなど多くのサービスが影響を受ける - GIGAZINE

一部のページがGoogle検索の結果に表示されなくなるバグが発生 - GIGAZINE

Gmail・Googleドライブ・Googleフォトが一時使用不能になった件についてGoogleが詳細な原因を説明 - GIGAZINE

AppleのiCloudで大規模なシステム障害が発生、GoogleやFacebookに引き続き - GIGAZINE

YouTubeで全世界的に動画が見られなくなる障害が発生、エラー画面にサルが登場 - GIGAZINE

in ソフトウェア,   ネットサービス, Posted by log1i_yk

You can read the machine translated English article here.