ネットサービス

Google ドライブ・Gmailなどで発生した大規模障害の原因と対策をGoogleが説明


Googleは現地時間の2020年8月19日午後8時55分から2020年8月20日午前3時30分までの間に、Gmail・Google ドライブなどのサービスやG SuiteGoogle Cloud Platformで発生した大規模なサービス障害について、障害の詳細および原因と対策を発表しました。

Google Cloud Issue Summary
(PDFファイル)https://static.googleusercontent.com/media/www.google.com/ja//appsstatus/ir/bd9m3vkqwpvkk4j.pdf

◆障害の詳細
各サービスで発生した障害の詳細は以下の通り。

・Gmail
一部のユーザーがGmailサービスを利用できず、メールの配信の遅延やメッセージに添付ファイルを追加する際にエラーが発生。Gmailユーザーの約0.73%に障害発生中3回以上のエラーが発生しており、障害の影響を受けたGmailユーザーの約27%がG Suiteユーザーでした。Gmailへの影響は2020年8月20日午前3時30分までに軽減されており、障害によって送信が遅延したメッセージはすべて配信されています。

・Google ドライブ
一部のGoogle ドライブユーザーにエラーと遅延が発生。障害発生中および障害発生から直近24時間以内にアクティブだったGoogle ドライブユーザーの約1.5%に3回以上のエラーが発生しました。

・Google Docs
一部のGoogle Docsユーザーに、画像のアップロード、画像付きドキュメントのコピー、画像付きテンプレートの使用など画像作成アクションに関する問題が発生しました。

・Google サイト
一部のユーザーは、新しいウェブサイトの作成、ウェブサイトへの新しいページの追加、またはウェブサイトへの画像のアップロードができなくなるという問題が発生。さらに、障害発生中にテンプレートからウェブサイトを作成する際のエラー率はほぼ100%でした。ウェブサイトへの影響は2020年8月20日午前3時までに軽減されています。

・Google Chat
メッセージを送信しようとしたGoogle Chatユーザーの約2%および、 Gmailにメッセージを転送しようとしたユーザーの約16%にエラーが発生しました。

・Google Meet
障害が発生している間、ライブストリームは完全にダウンしており、YouTubeへの配信にも遅延が発生していました。Google Meetにおける障害は2020年8月19日午後9時から2020年8月20日午前1時15分、および2020年8月20日午前1時40分から午前2時10分まで続きました。

・Google Keep
一部のGoogle Keepユーザーに約500件のInternal Server Errorレスポンスが送信され、メディアに関する操作に遅延が発生しました。

・Google Voice
添付ファイルを含んだSMSメッセージの配信ができず、一部のボイスメール、通話録音、SMSの配信に遅延が生じました。Google Voiceへの影響は2020年8月20日午前3時20分までに軽減されており、すべてのボイスメールと録音は配信され、最大で5.5時間の遅延が発生しました。

・Google Jamboard
画像のアップロードおよび画像を含んだドキュメントをコピーしようとした際、一部のユーザーにエラーが発生しました。

・G Suite 管理コンソール
G Suiteの管理コンソールでCSVファイルをアップロードする際、一部のユーザーにエラーが発生。障害発生中のエラー率は15~40%でした。

・Google App Engine
Blobstore APIを呼び出すApp Engineスタンダードでエラー発生率が上昇しました。ピークエラー率は多くの地域で5%未満でしたが、us-west 1(アメリカ西海岸)では約47%、us-central 1(アメリカ中部)では13%にまで達しています。Images APIを呼び出すApp Engineスタンダードのエラー率は最大66%でした。静的ファイルまたはBlobstoreオブジェクトによって処理されるインバウンドHTTP requestのエラー率が高く、ピーク時のエラー率は約1%でした。

静的ファイルを含むアプリケーションのデプロイでは以下のメッセージが表示される不具合が発生しました。App Engineへの影響は2020年8月20日午前3時25分までに軽減されています。

The following errors occurred whilecopying files to App Engine: File https://storage.googleapis.com/.... failed with: Failed to save staticfile.


・Cloud Logging
App Engineのリクエストログやアクティビティログ、監査ログなど、Googleが生成したログを含むGoogle Cloud Loggingへのログメッセージの書き込みが最大4時間43分遅れて行われました。ログのバックログは2020年8月20日午後4時までに完全に処理されています。障害発生中、ログの書き込みと読み取りのAPI呼び出しは正常でしたが、読み取りは不完全な結果を返しました。

・Cloud Storage
アメリカのマルチリージョンにあるGoogle Cloud StorageバケットへのAPI呼び出しの約1%にエラーが発生しました。エラーは2020年8月20日午前0時31分までに完全に解消されています。

◆障害発生の原因
Google Cloudチームによると、多くのGoogleサービスではバイナリ・ラージ・オブジェクト(BLOB)に共通の内部分散システムが使用されているとのこと。BLOBストレージシステムには、Googleのクライアントサービスとのインターフェースとなるフロントエンド、メタデータ操作を処理する中間層、そしてBLOBのストレージバックエンドが含まれており、クライアントがフロントエンドに要求を出すと、メタデータ操作はメタデータサービスに転送され、メタデータサービスはストレージサービスと通信を行います。

Google Cloudチームは障害発生の原因を「Googleサービスからのトラフィックが増加したため、メタデータサービスに過剰な負荷がかかったことからタスクが正常に動作しなくなり、リクエストの遅延が増加しました。遅延の増加により、操作の再試行も過剰に行われ、リソースの枯渇につながりました。システムが新規にメタデータタスクの自動起動を試みましたが、リソースの枯渇により新たなタスクに十分なリソースを割り当てられませんでした。この問題は、失敗したリクエストをキャンセルしたり、再試行したりするためのシステム構造によって悪化し、トラフィックに乗算的な影響を与えていました」と説明しています。

また、Google Cloudチームは、Google Cloud Storage(GCS)が他のサービスに比べて影響が小さかった理由を「GCSは他のサービスと同じBLOBストレージシステム上に構築されていますが、GCSのメタデータレイヤーは障害の発生したGoogle内部のメタデータサービスからほとんど分離されています。GCSのメタデータ分離のための移行作業はアメリカのマルチリージョンでのみ進行中であり、その他の移行はすべて完了しています。その結果、GCSユーザーへの影響はアメリカのマルチリージョンのみに限定されました」と説明しています。


◆再発防止策
Googleは再発防止策として、以下の措置を講じることを発表しています。

・根本原因が完全修復されるまで、BLOBメタデータサービスへの計算リソースの割り当てを増量。
・メタデータサービスタスクの起動時に実行されるヘルスチェックを調査・改善し、リソースが供給される前にタスクが早期に停止しないよう改善。
・メタデータ操作が失敗した場合に使用されるバックオフおよび再試行手順の評価・改善。
・単体エラー発生によってリソースのレプリケーション全体に取り消し要求が殺到する可能性がある問題の修正。
・タスクの起動時およびリソース割り当て時の問題を早期検知できるよう、BLOBストレージシステムが使用するオートスケーリングのアラート機能を改善。
・BLOBストレージサービスへのリクエストに対する包括的なレート制限制御の実装。
・BLOB操作を効果的にデバッグ可能にする計測機能を追加。
・タスク間でのリソースの転送の速度、効率、自動化の向上。
・BLOBストレージサービスのレート制限制御に関する内部マニュアル改善。

Google Cloudチームは「サービスの中断を防ぐために、迅速かつ継続的にテクノロジーとオペレーションの改善に取り組みます。お客様にご迷惑をおかけしたことを改めてお詫び申し上げます」とコメントしています。

この記事のタイトルとURLをコピーする

・関連記事
GoogleのGmail・G Suiteでなりすましメールに関する脆弱性が報告される - GIGAZINE

Googleの徹底的なシステム障害への対応「SRE」の中身とは? - GIGAZINE

Googleドライブがダウンして「仕事ができない」とパニックになる人が続出 - GIGAZINE

YouTubeやGoogle Cloudが激重になった大規模障害についてGoogleが詳細な原因を説明 - GIGAZINE

in ソフトウェア,   ネットサービス, Posted by log1m_mn

You can read the machine translated English article here.