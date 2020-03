インターネット上でサービスを提供する企業では、いかに自社のシステム障害と向き合うかが重要です。検索エンジンやクラウド、メール、広告など、さまざまなサービスを提供しているGoogleが、自社が提唱しているシステム管理の方法論「 SRE 」に基づき、システム障害にどう対応しているかを実際の事例をもとに紹介しています。 SRE keeps digging to prevent problems | Google Cloud Blog https://cloud.google.com/blog/products/management-tools/sre-keeps-digging-to-prevent-problems SREは サイト・リライアビリティ・エンジニアリング の略で、「サイト信頼性エンジニアリング」と訳されることもあります。Googleのような大規模な企業では、他の企業ではめったに起こらないことが常に起こる可能性があり、他ではあり得ないような複雑な障害が起こり得るとのこと。そうした障害に対応するため、GoogleのSREは自社インフラが持つ多数の層に渡って障害を追跡できるよう、システムを構築することに優れていると語られています。 Google Cloud Blogでは、GoogleのSREがどんなアプローチなのかがよくわかる事例が紹介されています。Googleのトラフィックと負荷分散を担当するSREのチームが、 エッジネットワーク で異常な数のエラーを検出したケースでは、まず、障害の影響を軽減するため、担当チームはエラーが出ているマシンをサービスから分離。こうした分離をいち早く行えるのは、Googleがシステム全体で十分な処理能力を有し、冗長性を確保できているからであり、これはSREの重要な要素のひとつであるそうです。 チームはこうしたエラーが一過性のネットワーク異常によるものであるというノウハウを持っていたため、ネットワークを調査すると、あるサーバーラックでパケットロスが発生していることを確認。さらに調査を進めると、ルーターで BGP の ルートフラッピング が発生していることがわかりました。ルートフラッピングはルーターそのものよりもマシンの障害を示唆していると判断し、チームはサーバーマシンのシステムログを参照することにしました。

2020年03月17日 06時00分00秒 in ネットサービス, Posted by log1n_yi

