Atlassianが障害発生を公式発表するまで9日間かかりユーザーの怒りを買った経緯まとめ
プロジェクト管理ツールの「Jira Software」やタスク管理ツール「Trello」、ワークスペースツール「Confluence」など多数の製品を展開するAtlassian(アトラシアン)のサービスが一部停止しています。障害発生当初、影響を受けたのは約400社で、その後、機能復旧により影響範囲は狭まっているものの、2022年4月14日時点でもまだ半数のユーザーがサービスを使えない状況が続いています。この件について、テック系の専門家・Gergely Orosz氏が「Atlassianはユーザーとのコミュニケーションが不足している」と蓄積された不満を指摘しています。
The Scoop: Inside the Longest Atlassian Outage of All Time
https://newsletter.pragmaticengineer.com/p/scoop-atlassian
Engineering mistakes happen. The most inexcusable thing is not communicating wit... | Hacker News
https://news.ycombinator.com/item?id=31020562
一部のお客様へ影響しているアトラシアンサービスの停止について | Atlassian Japan 公式ブログ | アトラシアン株式会社
https://www.atlassian.com/ja/blog/april-2022-outage-update
Atlassianの発表によると、サービスが停止したのは世界協定時で2022年4月4日(月)20時12分(日本時間4月5日5時12分)ごろ。原因は「本来無効化したかったスタンドアロンアプリのIDとクラウドサイト全体のIDの取り違え」および「削除スクリプト実行時に『リカバリ可能な削除』ではなく『恒久的削除』で実行した」の2点で、結果として、約400社のサイトが削除されてしまったとのこと。
Atlassianが今回のダウンとその対応についてどのような報告をしていたのかは以下のページに刻々と記録されています。調査開始から2時間後の4月5日11時時点で「原因を見つけ、緩和策を計画中です」との報告がありますが、具体的な原因や作業への言及はありません。
Jira Software Status - Multiple sites showing down/under maintenance
https://jira-software.status.atlassian.com/incidents/gms0m979jxbr
結局、詳細な報告は4月12日、CTOのSri Viswanath氏がエンジニアブログを更新する形で行われました。
April 2022 outage update
https://www.atlassian.com/engineering/april-2022-outage-update
Atlassianはこの件について「ユーザーと直接コミュニケーションを取っている」とたびたび主張していますが、Orosz氏のもとには複数のユーザーから「個別の連絡はなかった」との声が届いているそうで、Orosz氏は「すべての顧客の不満は、Atlassianのコミュニケーション不足にある」と指摘しています。
また、本件の影響は「収益の損失」ではなく、「評判の損失」という形で長期的なクラウド販売に悪影響を及ぼすことになるとも指摘しています。すでに2015年・2017年の2度にわたってAtlassian製コミュニケーションツール「HipChat」でセキュリティ問題が発生しており、これを契機にUberはHipChatの使用を中止しました。
HipChat のセキュリティに関するお知らせとパスワードリセット | Atlassian Japan 公式ブログ | アトラシアン株式会社
https://www.atlassian.com/ja/blog/hipchat-security-notice-and-password-reset
加えて、Atlassianはサーバー製品の扱いを取りやめてクラウドサービスへの移行を推進していますが、今回の件で、サーバー製品のサポート期間を延ばさざるを得なくなる可能性が挙げられています。Orosz氏は、Atlassianが大口顧客を失いたくないのであれば十分検討に値する選択肢であると述べています。
なお、Orosz氏はAtlassianの今回の対応を「ハイテク企業ならかくあるべきという機敏さに欠けた」と非難した上で、将来的に問題処理を改善するための社内改革と投資が行われることを期待すると締めくくっています。
・関連記事
Confluence・Jiraのクラウド版がダウンしてなんと5日経過、Atlassianは再構築にさらに2週間を費やすとの情報も - GIGAZINE
「背筋の凍るシステムダウン」についてIT企業の最高技術責任者たちが赤裸々に経験を語る - GIGAZINE
物理サーバーを稼働させたまま引っ越しさせた意外な方法がネットで話題に - GIGAZINE
トラブルをわざと発生させサーバ問題解決能力を鍛える「Trouble-Maker」 - GIGAZINE
・関連コンテンツ