ネットサービス

なぜFacebookが6時間もダウンしたのかをFacebook幹部が専門家でなくても分かるように説明


2021年10月5日にFacebookのシステムで障害が発生し、同社のSNSのみならずInstagram、WhatsApp、Messenger、OculusなどFacebookのあらゆるサービスがダウンしました。この障害の原因について、Facebookのエンジニアリングおよびインフラ担当バイスプレジデントであるSantosh Janardhan氏が、専門用語の解説を交えて分かりやすく説明しています。

More details about the October 4 outage - Facebook Engineering
https://engineering.fb.com/2021/10/05/networking-traffic/outage-details/

約6時間にわたりFacebookのサービスがダウンした10月5日の障害の、発生当初の状況や復旧の経緯については、以下の記事に詳しくまとめられています。

Facebook・Instagram・Oculus・WhatsAppが世界的にダウン、その原因とは? - GIGAZINE


Janardhan氏によると、今回の障害はバックボーンと呼ばれる基幹回線の容量を管理するシステムに起因しているとのこと。背骨を意味する言葉で呼ばれているとおり、バックボーンはFacebookのサービスを根本から支えるネットワークで、ユーザーがFacebookのアプリでやりとりするデータはすべてこのバックボーンネットワークを介してFacebookのデータセンターで処理されています。

10月5日の障害は、このバックボーンネットワークのメンテナンス中に発生したものでした。メンテナンス作業をしていたFacebookの技術者が、グローバルなバックボーンネットワークの容量の可用性をチェックするためのコマンドを発信したところ、不意にバックボーンネットワークのあらゆる接続が停止し、Facebookの全世界のデータセンター網が切断されてしまったとのこと。こうした事態を防ぐため、Facebookはネットワーク全体に影響が出るようなコマンドを監視するツールを用意していますが、今回はこのツールがバグで機能しなかったため、コマンドをストップさせることができませんでした。


大規模なデータセンター同士をつなぐバックボーンのネットワークがダウンしたことで、データセンターとユーザーをつなぐ小規模な施設にも影響が出ました。Facebookが持つ小規模な施設は、「DNSクエリへの応答」を行うという役割を担っています。DNSとは、ユーザーがブラウザに入力するシンプルなアドレスを特定のサーバーのIPアドレスに変換する、いわばインターネットのアドレス帳のこと。これにより変換された情報は、「ボーダー・ゲートウェイ・プロトコル(BGP)」という通信規格を介して他の地域のインターネットに受け渡しされます。

Facebookの小規模な施設では、DNSサーバーがデータセンターと通信できなくなった時には、BGPを使ったネットワーク管理情報のやりとり(アドバタイジング)が無効になるようになっています。これは、ネットワークの安全性のために行われるものですが、今回の障害では全てのバックボーンが停止していたので、Facebookが持つ全てのDNSサーバーが「稼働しているにもかかわらず通信できない」という状況に陥りました。

これらの障害の連鎖が瞬時に起きた結果、Facebookでは「大規模なデータセンターのネットワークがダウンして通常の方法ではデータセンターにアクセスできない」という問題と、「小規模な施設のDNSがダウンしたせいで障害の調査や復旧に使う社内ツールが壊れてしまった」という問題の二重苦が発生し、対応が後手に回りました。また、Facebookのデータセンターが物理的にもシステム的にも高いレベルのセキュリティを要求するように設計されていたことがあだとなり、データセンターに派遣されたエンジニアの復旧作業に時間がかかったのも、問題が長引いた一因となりました。


一方、大規模なシステムダウンに備えた訓練を行っていたおかげで、システムが一気に復旧した反動で発生するクラッシュを防ぎつつ、できるだけ迅速にバックボーンネットワークをオンラインに戻すことができた点は幸いだったと、Janardhan氏は振り返っています。

Janardhan氏は今回の障害から得た教訓について、「不正なアクセスを防ぐために、私たちは徹底的なシステム強化を行ってきましたが、悪意のあるハッキングではなく私たち自身のミスによって引き起こされた障害から回復しようとした時に、そのシステム強化によって足をすくわれたのは示唆に富んだ出来事でした。私たちの今後の課題は、テストや訓練を重ね、全体的な回復力を高めて、今回のような問題が再び起こらないようにすることです」と話しました。

この記事のタイトルとURLをコピーする

・関連記事
FacebookやInstagramで原因不明の大規模なシステム障害が発生 - GIGAZINE

Facebook&Instagramでアクセス障害が発生、接続不能状態が8時間以上も継続中 - GIGAZINE

Facebookアプリを利用するiPhoneユーザーが突如強制ログアウトさせられる事態が発生 - GIGAZINE

in ネットサービス,   セキュリティ, Posted by log1l_ks

You can read the machine translated English article here.