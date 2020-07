ウェブサービスにおいて最も起こってはならないのが「サービスの停止」ですが、GoogleやCloudflareといった大手のインターネット企業でも、時にはそうした障害を引き起こします。2020年5月に発生したSlackの サービス障害 について、Slackのエンジニアである Laura Nolan 氏が原因を説明しています。 A Terrible, Horrible, No-Good, Very Bad Day at Slack https://slack.engineering/a-terrible-horrible-no-good-very-bad-day-at-slack-dfe05b485f82 2020年5月にSlackで発生した障害について、実際にSlackユーザーに影響を及ぼし始めたのは 太平洋標準時 の5月12日16時45分からですが、それよりも前の8時30分から障害は始まっていたとのこと。ネットワークのトラフィックを監視するトラフィックチームが一部のAPIリクエストに失敗しているというアラートを受けると同時に、データベースの信頼性向上を目指すDBREチームがデータベース基盤の負荷が大幅に増加しているというアラートを受けました。データベースの負荷上昇は設定の変更によるものだったので、すぐさま設定をロールバックして障害を解決。この時点では、ユーザーにほとんど影響はなかったとNolan氏は語っています。

・関連記事

Gmail・Googleドライブ・Googleフォトが一時使用不能になった件についてGoogleが詳細な原因を説明 - GIGAZINE



AppleのiCloudで大規模なシステム障害が発生、GoogleやFacebookに引き続き - GIGAZINE



Googleの徹底的なシステム障害への対応「SRE」の中身とは? - GIGAZINE



Slackはスピードと信頼性を両立したソフトウェア開発をどのように実現しているのか? - GIGAZINE

2020年07月09日 08時00分00秒 in ソフトウェア, ネットサービス, Posted by log1n_yi

You can read the machine translated English article here.