コラム

NTTデータのブログサービス「Doblog」がハードディスク障害で停止してから1週間以上が経過、一体何が起きているのか?


先日のヘッドラインでも書いたように、NTTデータが運営しているブログサービス「Doblog」に障害が発生したのが2月8日の午前10時過ぎなので、かれこれ1週間以上が経過してしまうわけですが、いまだに復旧していません。アクティブユーザー数は約2000~3000とされており、それなりの規模のブログのはずなのですが、一体何が起きたのでしょうか?

RAIDは組んでいなかったのか、バックアップ体制はどうなっていたのか、100%復旧は可能なのか、そもそも復旧がこれだけ遅れているが復旧の目処すらまともに立たない理由は何なのか?これだけの長期間障害が続いているにもかかわらず、NTTデータ自体から障害の報告が出たのは2月8日の障害発生から1週間以上が経過した2月16日。もはやDoblogはNTTデータから見捨てられてしまっているサービスなのでしょうか?

というわけで、今回の障害についてのまとめ、NTTデータにとってDoblogというものがどのような位置づけのサービスであったのかなどは以下から。
Doblog - Maintenance
http://www.doblog.com/


■時系列順に見る今回の障害の内容

まず第一報が出てきたのは2月8日(日)の午前10時15分。

現在Doblogでは障害が発生しております。
皆様にはご迷惑をおかけしておりますことをお詫び申し上げます。

2009.2/8 10:15 Doblog編集部

さらに約2時間半後の12時42分、ハードウェアにトラブルが発生していることが判明。そしてそれから約13時間後の23時50分になって、「データベースサーバーにハードウェア障害が発生」しているという旨を掲載、23時25分の時点では以下のような判断に。

23:25現在復旧の目処はたっておらず、ハードウェアベンダー等の意見も踏まえ、明日正午迄を目処に
改めてご連絡させていただきます。

そしてついに障害発生から24時間以上が経過した翌日2月9日(月)の12時データベースサーバのハードディスクに障害が発生しており、「復旧には数日を要する状況」であるという報告。夕方の16時には初めて復旧の目処が示されました。

復旧の目処ですが、順調に進んだ場合、13日(金)夜頃になると考えております。

障害発生から復旧まで5日が必要という時点でかなりの非常事態であることがうかがえます。

そして、障害発生から5日間が経過した2月13日(金)の12時45分頃、「サーバーの復旧過程でデータの不整合が発生」していることが発覚、復旧予定のはずであった13日の夜、21時50分に衝撃的なお知らせが告知されます。

2/8 10:00頃、Doblogのデータベースサーバー及び、バックアップサーバーの両サーバーにハードディスク障害が
発生し、当日より内部データの復旧作業を行っております。
現在も復旧作業を継続中ではございますが、当初2/13に復旧完了予定であったデータにエラーが発生、
2/13 21:50現在、翌週(2/16週)に延期せざるを得ない状況となりました。
長期のサービス停止となり誠に申し訳ございません。

もはやここまで来ると、100%のデータ復旧は絶望的な状況らしいということがわかりはじめるわけですが、障害発生からサービス停止が実に1週間以上になるという緊急事態に突入することが確定。しかも2月16日に復旧するのではなく、2月16日週、最悪の場合は2週間近くサービスが停止する可能性すら示唆されており、この記事を書いている時点でも正確な復旧の日時は示されていないというのが現状です。

■Doblogの歴史、NTTデータにとってどのような位置づけのサービスなのか?


そもそもDoblogが始まったのは2003年11月のこと。

NTTデータ、無料でBlogがオープンできる「Doblog」の実験サービス

NTTデータでは、今回の実験でモニター1万人の参加を見込む。「Blogを作成する代表的なツール“Movable Type”との互換性を維持した上で、簡単にBlogサイトを作成できる」としており、今後は各Blogの記述をデータマイニングして企業に提供するなどの事業化を目指す。

これより1ヶ月前の2003年11月には「β版テスト」が始まっており、当時の「Doblog - お知らせ一覧」を見ていくと、割とユーザーの目線に近く、かなりフレンドリーな運営がなされていたことがわかります。今となってはシャレにならないのですが、2004年4月1日のエイプリルフールにはこのようなことも行うだけの余裕があったようです。

[ 2004/04/01 ]【訂正】サーバメンテナンスのお知らせ


まさに全力。そんなこんなで「Doblog正式版リリース」予定日は2004年7月15日になっていたわけですが、3日前の7月12日になって、「現在のサーバの不安定性では、正式版サービスを提供するための環境が十分でないと判断」したため、正式リリースを遅らせることを発表しています。

先日来、サーバの不安定性を改善するため様々なチューニングを行ってまいりましたが、ユーザ数、ページ閲覧数の増加が予想以上に早くハードウェアの性能限界に近づいてきております。
現在、サーバ機器増設の検討を前倒しですすめておりますので、もうしばらくご辛抱いただきますようよろしくお願い致します。

確かにこの時期のお知らせページを見ると、山のように機能追加が繰り返されるのと同時にサーバのパフォーマンスアップや緊急メンテナンスに伴う30分から1時間ほどの停止が頻発、2004年7月9日には原因不明ですが「10時50分頃から12時17分にかけて、Doblogにアクセスできなくなる障害が発生」となっており、かなり危機的状況にあったことがわかります。

この2004年頃には現在の障害についてのヒントとなるような記述がいくつか見受けられます。抜粋してみましょう。

[ 2004/09/13 ] リリース延期とシステムの再稼動予定に関するお知らせ

データベース多重化と正式版に向けた機能追加の作業を本日行っておりましたが、作業終了間近になって予期せぬ障害が発生し、本日のリリースを断念せざるを得なくなりました。

これから、システムを2004年9月13日9時の時点の状態に戻します。(皆様にご登録いただきましたBlogやコメント、その他の全てのデータは常にバックアップをとっておりますので、データそのものが消去される心配はございません。その点につきましては、ご安心ください。)

[ 2004/11/05 ] システム増設・分散化向けた今後の予定のお知らせ

11月15日の週の中頃にDBの増強を実施いたします。
ここでは当初予定したDBサーバの追加とクラスタリングを行い、抜本的なレスポンス対策を実施致します。

今回問題となっているデータベースサーバはちゃんとクラスタリングされており、データ自体も常にバックアップを取っているようです。これが今回は1週間以上が経過しても復旧していないことから、かつてない規模での障害だということがわかります。

このあたりの事情は以下の記事で少しわかるようになっています。

ITmedia エンタープライズ:Postgresチューニングで慢性不具合、Doblogが大規模メンテを予定

当初Doblogは、利用ユーザー1万人を限界と想定し、実験サービスとしてスタートしていた。Doblogのシステム構成は、Webサーバ、アプリケーションサーバ、DBサーバとなっており、それぞれのサーバは1台ずつになっているとのこと。

なお、現在のDBは、OSSのPostgreSQLを利用している。今回の不具合のボトルネックになっているのはDBであることが明らかであるが、改善のためにPostgreSQLのクラスタリング化開発を行ったが、失敗してしまったのが実情であるという。

2004年11月になって、Doblogスタッフブログで、このDoblogがビジネスとしてどのような方向を目指しているのか、実績としてはどのようなものがあるのかが編集長から公表されています。

それから、Doblog関連のビジネスも立ち上がってまいりました。これは、Doblog.comで培った経験と技術をビジネスの種として育てるものです。その結果とてBlogに関するコンサルティング事業やDoblogのOEM版販売事業などを行ってまいりました。現状、DoblogのOEM版を複数販売し、納品するに至りました。

このようにDoblog編集部はプロジェクトとして、『Doblog.comの運営』と『Doblogビジネスの推進』という両輪をバランスよく円滑に回し手行く事が求められています。円滑な運営はユーザーの皆様に対する編集部の責務だと考えておりますし、ビジネスに関しましては、企業の中でプロジェクトとしてDoblogを継続させるために必要不可欠な活動です。

2004年12月からはサイバーエージェント社と共同で広告表示実験を開始、2005年2月には容量無制限のサービスであったために「Doblog内に画像だけ格納し、外部サイトから画像のみリクエストする」ケースを確認、外部サイトからの画像リクエストに対してはアクセス拒否することに。さらにレスポンス低下を解消するためにRSSキャッシュ化を行うが目立った改善がなく、2005年3月3日(木)のメンテナンスは予定通りに終了せず、13時30分から17時35分の4時間近く、さらに3月14日(月)は10時から18時という8時間ものメンテナンスによる停止を予定するが実際に終わったのは19時となり、9時間近くの停止。深夜のサーバダウンやアクセスしにくい状況も頻発、2005年9月にはついにデータセンターを移転するために2日間弱のサービス停止(閲覧・書き込み・修正が不可能)に突入する事態に。

そして2005年11月26日、とうとうハードウェア障害が発生、5時30分から14時30分の9時間の間、サービス停止に。2005年12月12日23時から翌日13日の2時までネットワーク障害で3時間停止。翌年の2006年は1月10日(火)6時25分から9時55分までの3時間半障害発生、1月12日(木)の2時30分から5時20分の約3時間に渡ってシステムダウン、その後もメンテナンスで何時間か利用できなくなったりする事態が頻発するものの、2006年6月16日(金)12時には正式サービスリリースにまでこぎ着けました。

が、さらに障害発生はとどまるところを知らず、2006年7月27日には「DBサーバ高負荷による、動作の不具合に関しましては、原因のひとつとなっているSQLの改修作業を現在実施中」「高負荷状態に対する暫定処置として、現在サーバへのアクセス数を制限しております。そのため、ページを表示する際にエラー(Service Temporarily Unavailable)となる場合」があると連絡、7月31日には「問題の一部となっておりましたメモリ領域不足が発生する事象に対して対策を実施」となっています。

2007年も障害が発生し続けており、アクセス不能・記事投稿不能・携帯電話による記事送信投稿に障害が発生・アクセスカウンターの“昨日のアクセス数"と“今日のアクセス数"が深夜0時に正常にリセットされず、“今日のアクセス数"に累計加算されてしまう事象・データベースサーバーのマシントラブルが起きていますが、メンテナンスの回数や総時間は短縮化されており、割とマシになってきていたようです。

このようにして障害発生まみれであることがわかるわけですが、これはDoblogだけの問題ではなく、そもそもほとんどのブログサービスが大なり小なりこのような障害まみれの時期を2004年~2007年当時は過ごしていたというのが実情でした。そのため、障害の少ないサービスに移住したりするのはある意味、日常茶飯事的光景になっていた時期もありました。

Doblogのダウンタイムや負荷状況については、以下のページにまとめられています。

Doblogアクセス負荷チェック

なお、Doblogの開発を行っていたのは「ホットリンク社」となっており、NTTデータ・ホットリンクなどが販売権を持っていたようです。

このブログ+SNSのシステム名が具体的に何なのかは不明ですが、三越のコミュニティサイト「三越コミュニティサロン」はDoblogで構築されていた過去があり、ほかにもいくつかの事例が存在することから、それなりのビジネスとして当時は成り立っていたようです。

つまり、NTTデータにとっては「Doblog自体の広告収益」が目的ではなく、「Doblogのシステムを売る」ことが目的であったようです。そのことを考えると、現時点でもNTTデータのページにおいてDoblogの紹介内容の「用途・適用業務」で「企業や自治体向けコミュニティ生成ツール」「企業と顧客のコミュニケーションツール」「口コミや商品レビューツール」と書かれている理由も納得できます。

現時点でもまだDoblogの採用を行った企業が多数あるのかどうかは不明ですが、運営し続けていたということはそれなりにペイし続けているということでもあり、広告掲載費用によって運営費用程度はなんとか捻出できていたのかもしれません。

最も気になるのはもしも今回の件がきっかけでサービスが終了してしまうと、残されたユーザーは一体どうなってしまうのかということなのですが……。せめて、今までブログで更新してきたデータだけは何とか死守して欲しいものです。

この記事のタイトルとURLをコピーする

・関連記事
大規模障害で1ヶ月も更新停止中のDoblogユーザーがどこに移転したのかがわかる「Doblog難民キャンプ」 - GIGAZINE

Googleのありとあらゆる検索結果に「このサイトはコンピュータに損害を与える可能性があります」と表示される事態が発生 - GIGAZINE

「ヨドバシ・ドット・コム」がリニューアル直後から表示が遅すぎて激重になる大規模障害が発生、一体何が起きているのか? - GIGAZINE

ココログ53時間の大規模メンテナンス終了、だが負荷は改善されず - GIGAZINE

Infoseekメール、4月22日~5月5日まで前代未聞の長期間障害発生 - GIGAZINE

2ちゃんねるが韓国国内の4000以上のIPアドレスからDDoS攻撃されていたことが判明 - GIGAZINE

Yahoo!メールの転送機能に不具合、1300万通が消失 - GIGAZINE

in ネットサービス,   コラム, Posted by darkhorse

You can read the machine translated English article here.