広告

サーバー突然死で業務停止、業界トップのデータ復旧技術で企業の危機を救う凄腕エンジニアに裏話を聞いてきた


「会社の基幹となるサーバーが突然息を引き取り、データが取り出せずにすべての業務が停止する」という緊急事態が発生した際、迅速に復旧できる技術力のデータ復旧業者は国内でもわずか数社。複数のストレージを1つに束ねてRAIDを構築したサーバーやNASは、冗長性を確保できるメリットがある一方で、24時間365日通電し続けているため劣化が非常に早く、突然の故障でデータ消失の危機に陥ることは珍しくありません。

このため、実際に、データ復旧の専門業者として14年連続で国内売り上げNo.1、復旧率は95.2%という高い技術力を持つ「デジタルデータリカバリー」のトップエンジニアに、普段知ることのできない裏話を聞いてきました。

データ復旧.com【デジタルデータリカバリー】|復旧率95.2%のデータ復旧・復元サービス
https://www.ino-inc.com/

回話を聞いたのはデジタルデータリカバリーのエンジニア約40人を束ね、10年のエンジニア歴の中で累計対応数1万2980件超、数多くのRAIDのデータ復旧に携わってきたベテラン柳田悟さん(左)と、RAID復旧の中核を担っている論理復旧チームのチーム長でRAIDの累計対応数350件以上を手掛ける関謙策さん(右)です。


GIGAZINE(以下、G):
それでは、よろしくお願いします。

データリカバリー事業部 エンジニアグループ グループ長 柳田悟さん(以下、柳田):
よろしくお願いします。

データリカバリー事業部 エンジニアグループ 論理復旧チーム チーム長 関謙策さん(以下、関):
よろしくお願いします。

G:
デジタルデータリカバリーは数多くの復旧を行ってるかと思いますが、RAIDを導入していても急にサーバーが壊れてしまうケースは多いんですか?

柳田:
多いですね。当社では、RAID機器のご相談だけでも累計1.3万件以上ありますが、そのほとんどが「急に壊れてしまった」というご相談です。サーバーは24時間稼働し続けているものなので、長期休暇前に電源を落とし、再度電源を入れたタイミングで故障するというケースが多いです。たとえば年末年始だと、年明けになって出社してみたら起動しない、電源がつかない、ファイルが移動できなくなっている、本体ランプが赤やオレンジに点灯・点滅している、エラーメッセージが出る、といったことですね。あとは、計画停電で電源を落としたら、そのまま起動できなくなってしまったとか。


柳田:
実際に先日あったご相談は、月末の土曜日までは問題なく起動していたサーバーが、週明け月曜日に出勤すると突然、一切起動できないような状態になっていたというものですね。

月初2日目のタイミングでの故障だったので、会社の基幹データが入っているサーバーが故障して、会社の業務が停止してしまっているうえに、月頭の処理に必要な請求書関連のデータなどもあって一刻も早く復旧しないと困る、といった状況でした。

G:
かなりの緊急事態ですね……。月またぎでの破損というのは、なにか月末や月頭に定例で走るような処理が関連して壊れたとかなのでしょうか?

柳田:
関係はあるかもしれないのですが、症状としては重度の症状で1つのアクションでここまでなるというものではなく、いろいろ蓄積してここまで至ったと考えるのが自然かなと思います。それまで普通に使えていても中を開けたらひどく経年劣化が進行していて、実は壊れる寸前の状態で今まで何とか耐えていた感じですね。


G:
運悪く、大変なタイミングで発生してしまったわけですか……。

柳田:
そうですね。このご相談では会社の業務が停止しているため、データだけでなく機器や動作環境ごと一刻も早く復旧してほしいというご依頼でした。エンジニアが確認すると、ディスク全体に傷がついているという、かなり重度な物理障害が発生していました。故障は物理的に壊れている物理障害と、データが壊れている論理障害に切り分けられるんですが、今回のような物理障害から復旧するにはプラッタの修復技術とファームウェア修復技術のレベルが高くないとできないので、他社さんでは難しいと思います。なんとかデータ領域へのアクセスを確保したあと、全台のディスククローンを作成して「RAIDを再構築した状態のイメージのクローン」も作成し、それとは別にサーバーには別にディスクを組み込んでリビルドを行い、リビルド領域にイメージを流し込んで起動させた、という感じです。


G:
おお……。

柳田:
なんとかそれで起動には成功しましたが、まだ不具合があったため、OSの修復などを行って最終的な作業を完了させました。このサーバーではRAIDを構成していたHDDの容量が1台146GBで、昨今用いられるものとしては比較的小さめでしたが、2日での復旧はなかなか大変なところでした。国内でこのスピードで復旧できるところはほぼないと思います。

G:
これは、もし一般的にRAIDを構築する際に用いられるような容量の大きいHDDが使われていた場合、2日ではできていなかったですか。

柳田:
そうですね、容量が小さかったことが早期復旧に幸いしたケースだったと思います。まだ1台1TBぐらいなら大丈夫かもしれませんが、10TBや20TBだったらプラス3日から4日はかかってしまうかなと思います。単純に、データ量が10倍になると、その抽出にかかる時間も10倍になりますから。

関:
他社さんだと、依頼が来てもデータ抽出設備の空きが出なくて1週間くらい作業着手できないとか、ロスタイムが生まれるケースがあると聞きますよね。

柳田:
そうなんですよね。当社の復旧ラボは国内最大規模で、数十台規模で同時抽出できる体制を整えていますが、他社さんだとリソースが十分でなくて、ラボがもう少し小さかったり、対応できるエンジニアの数が少なかったりします。データ復旧のスピードには技術力はもちろんですが、設備の規模もかなり重要なんです。


柳田:
納品用のディスクにデータだけ抽出し、お客様側で新しい機器にデータ移行していただくのが一般的なのですが、今回のように「会社運営に支障が出ている」「手元ですぐ使える状態で復旧してほしい」というご依頼も多々あります。そういった場合には、国内で対応できる業者はかなり限られますから、当社で通常復旧に加えて動作環境まですべて復旧して納品しています。

関:
他にも病院で使用しているSANサーバーでストレージにアクセスできなくなり、原則持ち出しができないため現地で復旧してほしいというご相談もありました。

G:
SANサーバーとはどういったものを指すのでしょうか。

柳田:
SANサーバーは、複数の機器にまたがって1つのRAIDを組めるようなシステムで、その場にない別のデータセンターの機器も含めて1つのストレージとして構成することができます。使いやすさや拡張性の面で大きなメリットがあり、データを大量に取り扱うようなネットワークで使用されています。


G:
複数箇所に拠点がまたがっているような事業者さんだと便利ですね。

柳田:
はい、大きい企業さんはだいたい使っているのではないかと思いますが、複雑な構成のものが多いですね。

関:
このお客様は、病院のサーバーで患者データが入っていて持ち出すことはできないということだったので、まずは無料の出張診断を行いました。その際、診断機器を持っていき、クローンを作成してRAIDの分析を行おうと思ったんですけれど、通常のHDDとはセクターサイズが異なっていて、いつものやり方でクローンを作ることができなかったんです。


G:
そんなことがあるんですね……。

関:
通常、1セクターは512バイトで、たまに520バイトとかにしているケースもあるんですけれど、この事例はその520バイトが8つ分の4160バイトというちょっと特殊なもので、このまま現地で作業するのは難しいという判断になりました。それで先方とご相談して、HDDのうち2本だけを持ち帰って分析し、クローンを取ることに成功しました。

G:
おお。

関:
そうなると同じように残りのHDDのクローンも取れるようになったんですが、いざRAIDそのものの分析をしてみると、そもそもRAIDを組むための情報、メタデータがHDDに入っていないことがわかりました。

G:
えっ……RAIDを組むためのメタデータも破損している事例があるというのは聞いたことがあるのですが、HDDにメタデータがそもそもないということもあるんですか。

関:
今回はそういうケースでしたが、少ないですね。当社でも、そんなに対応例は多くないと思います。この時はその点も含めてお客様に説明してご信頼いただき、筐体のお預かりができたので、データを抽出することができました。筐体ごと調べることでRAIDを構成するための情報を得ることができたので、ファイルシステムを作り出したようなイメージです。先ほど、SANサーバーは使いやすいというお話をしたのですが、それはあくまで利用する方にとっての話で、復旧する側からすると他のRAIDより何倍も難しいんです。


G:
SANサーバーだとどういった点が難関なのですか?

関:
RAIDの分析がしづらいんです。構成自体が複雑なものが多い上に、機器やメーカーによる独自のRAIDの組み方があったり、独自のファイルシステムを使っていることがあるんです。難度の高いSANだと、復旧できるエンジニアは世界的にみてもほとんど存在しないと思います。

G:
この事例は、まさにその難度の高い事例に入るものなのでしょうか。

関:
比較的難しい側に入ります。ただもっと難しいものも当社ではありますね……。RAID情報が壊れた状態であったり物理障害が併発していたりだとか。

G:
なるほど…。3度の出張を行って復旧までに45日かかったとのことなのですが、もし持ち出し禁止でなければもうちょっと時間の短縮は可能だったのでしょうか。

関:
そうですね……筐体にメタデータが入っているというのは実物に触れていればもう少し早めにわかったかもしれませんね。弊社では出張診断は無料で対応しているのですが、出張対応は有料だという業者さんや、そもそも出張対応は不可能だというところもありますので、こうした対応はかなり珍しいと思います。

柳田:
ほかにも難易度が高かった機器でいうと、大学でサーバーを誤ってリビルドしてしまったものですね。過去の研究データが蓄積されているサーバーで、時間的には急いでいないけれど、絶対に復旧してほしいというご依頼でした。

G:
研究データですか。

柳田:
先ほどの事例はSANサーバーでファイルシステムはWindowsで標準的なNTFSでしたが、これはファイルシステムがZFSの事例で、特殊というほどではないのですが、NTFSよりは対応事例が少ないものとなります。そのRAIDを、誤ってリビルドしてしまったと。RAID設定を一度消して、新しいRAID設定を上書きしてしまったという状況でのご依頼でした。

G:
うわ、ありそうですね……。


柳田:
上書きしているため、元のRAID情報は消えてしまっているところも結構あったんですけれど、完全になくなったわけではなかったので、残っていた部分を頼りに元々のRAID構成を分析して再構築していきました。ファイルシステムも消えている部分を修復していきました。ディスクが16台あり、RAIDの構成パターンも結構あって、分析自体は大変でしたが、最終的に99.9%のデータ復旧に成功しました。

G:
上書きされたRAID構成やファイルシステムというのは復旧できるものなんですか。

柳田:
大部分が消えてしまっていたら難しかったと思いますが、このケースは幸い、修復可能なレベルの損傷だったので100%に近い形まで戻すことができました。

G:
戻せるレベルの損傷だったのは、もう運の部分ですか……。

柳田:
もしRAIDを再構築後にいろいろいじられていたら難しかったと思いますが、リビルドしただけの状態だったのでなんとかいけたというところです。今回はお客様も詳しい方だったので、ほぼ「リビルド直後の状態」だったのが幸いでした。

G:
復旧が必要になるような損傷のときはへたに触らない方がいいというやつですね。

柳田:
まさにその通りです。

関:
変に手を加えてしまって復旧が難しくなるケースも多いですし、ここだけの話、他社さんで復旧できなくて当社に持ち込まれるケースも非常に多いので……。大きなサーバーだと保守会社さんが入っておられるケースもありますが、症状を突き止めることはできても、それ以上の専門的な作業には手が出せず、弊社にご相談いただくこともあります。


G:
できるだけ確実に復旧してもらうためにも、変に自力で直そうと試行するのはやめておこうと思います。

柳田:
お願いします(笑)

G:
RAIDの構成がわからない状態で機器をお預かりしたときは、どうやって特定しているんですか?

柳田:
ざっくりいうと2パターンあって、RAID情報がきれいに残っているのであればそこからいきます。多少欠けていたとしても、欠けているなりのRAID情報から得られるものはあるので。あとは、RAIDというのは複数のディスクを1個のボリュームに見せるような仕組みなので、最終的につなげるとと整合性の取れた1つのストレージになります。なので、最終的に1個になることを想定してつながるような順番を探すという方法もあります。バイナリを目で見たり、数字を探したり……。


G:
目で見てですか、途方もなさそうですね……。

柳田:
余談ですが、このご依頼の作業時間は17日なんですけれど、これはお客様側のリテラシーがあったからこその数字なんです。そうでなければ2倍から3倍の時間が必要だったと思います。

G:
えっ、どういうことなんでしょうか?

柳田:
あまり詳しくは言えませんが、要するに、WindowsやMacに接続して単純に閲覧できるような状態ではない特殊な状態での納品でご了承いただけたんです。

G:
ああー、もしWindowsやMacに接続して中身を直ちに見られるような部分まで復旧するということなら、もっと時間が必要だったと。

柳田:
そうなんです。

G:
SANサーバーの復旧依頼は増えていますか?

柳田:
ご依頼自体は前からありますが、SANサーバーを導入している企業が増加しているので、ご相談の数も増加しているのは確かだと思います。

関:
過去にいろんな機器、いろんなサーバーを見てきているからこそ蓄積したノウハウやデータというものもありますので、「このメーカー・このモデルなら、こういう症状の時にはこうすれば」とか「この部品はあのモデルと互換性があるから」とか、そういった点はスピード復旧につながっている部分だと思います。

G:
過去に実績があるから新しいご依頼が持ち込まれるし、新たな復旧作業に取り組むことでさらに蓄積が増えるという循環が生まれるんですね。


柳田:
弊社としては、少しでも可能性があるものは極限までご対応させていただくというスタンスを取っています。24時間365日年中無休で、出張費用も完全無料、持ち出し不可のご相談にも対応するという姿勢が当社の強みになっていて、累計ご相談件数41万件の実績に繋がっているかなと思います。

関:
ただ、まずはデータを失わないように、バックアップは三重に行い、クラウドを含めてそれぞれ別の場所に保存していただくのがベストです。また、トラブルが発生したらただちに電源を切ってコンセントを抜いていただければと思います。

G:
確かにそうですね。本日は貴重なお話を聞かせていただき、ありがとうございました。

柳田・関:
ありがとうございました。

データ復旧.com【デジタルデータリカバリー】|復旧率95.2%のデータ復旧・復元サービス
https://www.ino-inc.com/

この記事のタイトルとURLをコピーする


・関連コンテンツ

in インタビュー,   ハードウェア,   広告, Posted by logc_nt

You can read the machine translated English article here.