ネットサービス

Gmail・Googleドライブ・Googleフォトが一時使用不能になった件についてGoogleが詳細な原因を説明

by Charles PH

日本時間の2019年3月14日にFacebook&Instagramでアクセス障害が発生し、AppleのiCloudでも大規模なシステム障害が発生しましたが、これらよりも一足先の3月13日に、Googleの企業向けGmailやGoogleドライブでシステム障害が発生していました。このシステム障害の原因をGoogleが解説しています。

Google Cloud Status Dashboard
https://status.cloud.google.com/incident/storage/19002


GmailやGoogleドライブで起きたシステム障害は、現地時間の2019年3月12日18時40分から22時50分までの約4時間にわたって続きました。原因はGoogleの内部BLOB(Binary Large Objects)ストレージサービスのサービスが中断したことで、これにより複数のGoogle Cloud Platform(GCP)サービスが影響を受けることとなりました。GoogleはGCPの可用性を向上し、この種の障害が今後発生しないようにするために早急に措置を講じていると記しています。

障害発生時、Googleの内部BLOBストレージサービスでエラー率の上昇が確認され、そのエラー率は平均20%にも達し、ピーク時にはエラー率31%にまで達したそうです。Googleの内部BLOBストレージサービスを利用しているサービスにはGmail、Googleドライブといったものも含まれており、これらのサービスでもエラー率の上昇が確認されています。ただし、Google Cloud Storage(GCS)と同様に、Googleの内部BLOBストレージサービスにもキャッシュと冗長性が設けられているため、ユーザーへの実際の影響はシステム障害の規模から考えると「かなり小規模に抑えることができた」とのこと。


最も大きな影響を受けたGCPサービスのGCSではロングテールの待ち時間が長くなり、平均エラー率は4.8%に達しました。また、すべてのバケットとストレージクラスが影響を受け、GCSに依存するGCPサービスも影響を受けることとなったそうです。また、Googleの「Stackdriver Monitoring」では時系列データの取得中に最大5%のエラーが発生したそうです。他にも、「Google App Engine」のBlobstore APIでは、BLOBデータのフェッチで待機時間が長くなり、エラー率が21%に達してしまった模様。また、Google App Engineのデプロイメントではピーク時のエラー率が90%に達しており、静的ファイルの配信でもエラーが発生していたことを明かしています。

Google App Engine のドキュメント  |  App Engine Documentation  |  Google Cloud


2019年3月11日、Google SREは内部BLOBサービスで使用されているメタデータ用のストレージリソースが大幅に増加していると警告されたそうです。翌12日、リソース使用量を減らすために、SREは「BLOBデータの場所を探すためにシステムの重要な部分を過負荷にする」という副作用を持つ設定変更を行いました。この変更は負荷が増加すると最終的にカスケード障害が発生しうるものだったそうで、これこそがGoogleで起きたシステム障害の根本的な原因とのこと。

Google SREはシステム障害が発生した直後に、設定変更を行っていたジョブをすぐに停止。カスケード障害から回復するために、BLOBサービスへのトラフィックレベルを手動で減らし、高負荷でタスクがクラッシュすることなく起動できるように調整したそうです。

Googleは「この種のサービス中断を防ぐために、障害がグローバルに影響を与える可能性が低くなるよう、ストレージサービスの領域間の分離を改善します。高負荷が原因のカスケード障害から回復するため、リソースをより迅速にプロビジョニングする能力を向上させます。また、システムの主要部分が過負荷になるような構成変更を防ぐために、ソフトウェア対策も行います。加えて、メタデータストレージシステムの負荷制限動作を改善し、過負荷時にも適切に低下できるようにします」と、今後同様の問題が生じないようにするための予防策を記しています。

この記事のタイトルとURLをコピーする

・関連記事
AppleのiCloudで大規模なシステム障害が発生、GoogleやFacebookに引き続き - GIGAZINE

Facebook&Instagramでアクセス障害が発生、接続不能状態が8時間以上も継続中 - GIGAZINE

世界地図で今まさにどこで大規模なDDoS攻撃が起きているかがわかる「Digital Attack Map」 - GIGAZINE

「ポケモンGO(Pokémon GO)」のサーバーが落ちているかどうかがわかるサイトまとめ - GIGAZINE

in ネットサービス, Posted by logu_ii

You can read the machine translated English article here.