広告

クラスタファイルシステム「VMFS」のデータ復旧に「日本データテクノロジー」が成功


「1秒でも早く、1つでも多くのデータを最も安全に復旧します」という理念のもと、データ復旧依頼件数において7年連続トップの実績をもつ日本データテクノロジーが、クラスタファイルシステム「VMFS」のデータ復旧に成功したそうです。今回の復旧成功の裏には1年にも渡る先行研究の存在があったとのことなので、VMFSデータ復旧成功の実態をインタビューしてみました。

データ復旧.comはデータの復元実績No.1|日本データテクノロジー
http://www.ino-inc.com



インタビューに答えるのは、日本データテクノロジーのデータ復旧事業部復旧チームに所属する、趙暁豪さん(左)と太田高寛さん(右)。


◆仮想化サーバー

GIGAZINE(以下、G):
サーバーの仮想化に用いられるVMFSのデータ復旧に成功されたとお聞きしました。まず、現状の「仮想化サーバー」についておたずねします。サーバーを仮想化することのメリットはどのようなものでしょうか。

趙暁豪氏(以下、趙):
分かりやすいようにサーバーではなく通常のPCで説明しましょう。通常1台のPCには一つのOSが動作します。もしも1台のPCでいくつものOSが扱えるならものすごく便利なわけです。例えばWindowsとLinuxを切り替えて使いたいとか。サーバーでも同じ事がいえます。サーバーにはFTPサーバー、Webサーバー、メールサーバー、DNSサーバーなどさまざまな種類がありそれぞれ機能があるのですが、通常は種類ごとに1台の物理サーバーの割り当てが必要です。これに対して仮想化サーバーでは、1台の物理サーバーでいくつもの機能をもたせることができます。つまり物理的なサーバー機は1台しかなくても、あたかも複数台のサーバー機があるかのようなコンピューティング環境を仮想的に作り出すことができるのです。この仮想的に作り出されたコンピューティング環境の1つ1つを「仮想化サーバー」あるいは「仮想マシン」と呼びます。近年のサーバー性能の向上に伴い、このように複数の機能を1台のサーバーでこなせるようになりました。

G:
なるほど。これによりサーバーの導入コストが下がりますね。

趙:
はい。サーバーの台数が減るわけですからイニシャルコストは下がります。

G:
それに電気代などのランニングコストも下げられそうです。

趙:
昨今の省エネ志向のおかげでランニングコストのメリットも関心が高いですね。

G:
コスト面以外のメリットはありますか。

趙:
例えばサーバー間でのデータのやりとりというのは意外と手がかかるものです。データをやりとりするためにサーバーを落とさなければならない場合もありますから。この点、仮想化サーバーであればサーバーを落とすことなくデータのやりとりができるため非常に使い勝手が良いのです。例えば、サービスを運用中の仮想マシンを、違う物理サーバーにそっくり移行することも可能です。

G:
なるほど。メンテナンスによるダウンタイムを減らせるというのは有利ですね。仮想化サーバーはどのような企業が導入しているのでしょうか。

趙:
基本的には重要なデータを大量に扱う企業が多いです。例えば通信分野とかですね。

G:
仮想化サーバーを導入する企業・団体は増えているのでしょうか。

趙:
仮想化サーバーを採用する企業は確実に増えています。

G:
実際に日本データテクノロジーに仮想化サーバーのデータ復旧依頼はあるのですか。

趙:
あります。弊社の仮想化サーバーの復旧依頼に関して言えば、昨年に比べて20%から30%程度増えています。

G:
逆に、仮想化サーバーのデメリットにはどういうものがありますか。

趙:
我々は仮想化サーバーを使用する立場にはないのですが、システムデータが複雑であるため、サーバー導入が技術的に難しいことでしょうか。あとは、いざ障害が発生した場合にデータの復旧が難しいというのはデメリットかもしれませんね。


G:
そこで日本データテクノロジーの出番となるのですね。

趙:
そうですね(笑)

◆VMFS

G:
今回、仮想化サーバーで使われるファイルシステムVMFS(Virtual Machine File System)のデータ復旧に成功されたとのことですが、VMFSとはどのようなファイルシステムですか。

趙:
VMFSは、VMware.incの開発した仮想化用ソフトウェアVMwareに使われるクラスタファイルシステムです。VMFSは仮想マシンのディスクイメージや差分データを保持するスナップショットを格納するために開発され、VMware ESX ServerやVMware.incの主力製品であるvSphere及び旧VMware Infrastructureで利用されています。


趙:
仮想化サーバーに使われるソフトウェアは大きく2つに分かれます。一つはMicrosoftのHyper-Vで、もう一つが今回取り上げるVMFSを採用するVMwareです。

G:
仮想化サーバーで使われている主要なソフトウェアとのことですが、VMwareとHyper-Vの比率はどれくらいなのでしょうか。

趙:
正確には分かりませんが、弊社に依頼がある比率で言えば半分半分という感じでしょうか。

G:
VMFSの仕組みについてですが、仮想マシン自体はソフトウェア上で実現していますね。そしてそのソフトウェアは物理サーバーにある、と。ということは、物理サーバーがクラッシュする場合、論理障害と物理障害が同時に起こることもあるということですか。

趙:
はい。論理障害と物理障害との併合パターンが十分あり得ます。

G:
そうした併合パターンであると、難易度は単純に2倍というわけではないのですか。

趙:
そうですね。少なくとも2倍以上に難易度は上がると思います。

G:
今回、VMFSのデータ復旧に成功された経緯についてお聞かせください。具体的なVMFSのデータ復旧依頼がきっかけでしょうか。それとも日本データテクノロジーの研究開発部門独自の研究成果としてあらわれたのでしょうか。

趙:
確かにまだやったことのないデータ復旧の依頼がきっかけで新しい成功例が生まれることもあります。けれどVMFSのデータ復旧に関していうとそうではなく、1年ほど前からVMFSのデータ復旧ができないものかと、海外の提携企業や研究者の方と研究をスタートさせていました。仮想化サーバーには将来性が見込まれていましたから、今後増えるであろうデータ復旧依頼を見据えてのことでした。今回、具体的な依頼でデータ復旧に成功したのですが、これまでの研究成果が実を結んだという感じですね。

G:
1年かけた研究の成果が出たということですか。

趙:
そうです。

G:
1年とは長い期間に思われます。

趙:
大きな技術的テーマであれば、半年から1年くらいかかるものはたくさんあります。もちろんもっと時間がかかっているものもありますね。

G:
以前、ZFSの復旧事例では、何も情報がない状態から手探りでシステムの分析を開始したとおっしゃっていましたが、VMFSもそういった感じでしょうか。

趙:
そうですね。同じように手探り状態でした。データを分析しては海外の文献やデータをあたり海外の提携企業や研究者と連携してまた試行錯誤する、と言う風に地道に解析を進めました。

G:
海外といいますと具体的な国は……

趙:
そこは企業秘密ということでお答えできないです(笑)


◆復旧事例の詳細

G:
今回の復旧事例について具体的にお教えください。

趙:
今回のケースでは、物理サーバーは「EMC CLARiX AX150/AX150i」を使用、システム構成はハードディスク9本を使ってRAIDを組みVMFSが導入されていました。ハードディスクの内訳について詳細に言いますと、ハードディスク8本でRAID 10を構成、残りの1本は予備のホットスペアに使われていました。症状は、サーバーの電源が入らずまったく立ち上がらない状態でした。


趙:
まず初めに各ハードディスクに物理障害が生じているかをチェックしたところ、今回は物理障害はありませんでした。そこでRAIDの復旧にかかりました。

G:
これまでも度々RAIDを組んだシステムのデータ復旧が困難であることについて詳しくお話を聞いてきました。今回もRAIDがらみなのですね。

趙:
やはりサーバーではRAIDは切っても切り離せません。RAIDを正しく機能させなければその先のVMFSのデータ復旧に進めないのです。RAIDのデータ復旧には「RAIDレベル」などいくつかの要件を確定させることが必要で、要件が一つ欠けても復旧はできません。

G:
すみません。RAIDレベルとは、RAID 5やRAID 10などのRAIDの種類のことですよね。クライアント自身ではRAIDレベルを把握していないのでしょうか。

趙:
まったく知らない場合もあれば、中には間違って把握されている場合もあります。このため、RAIDレベルは必ず弊社自身でハードディスクを分析し確定させています。

G:
間違って認識されていることがあるためクライアントからの情報を鵜呑みにせず、自社で必ずチェックしていると。RAIDを復旧させた後にいよいよVMFSの復旧ですね。

趙:
はい。分析の結果、仮想ディスク(VMDK)部分に問題があり、うまくOSが起動できない状態であることが分かったためその部分のデータを修復しました。仮想化サーバーではない通常のサーバーであれば、ファイルシステムを分析・修復して、データ救出を行えば復旧完了となります。これはファイルシステムが一つであるためです。しかし、今回のサーバーは仮想化サーバーであるため、2つのファイルシステムを分析・修復する必要があり作業には時間がかかりました。

G:
仮想マシンの数だけシステム分析・修復の作業が増えるのですね。

趙:
さらに、今回のケースではデータ救出も通常の場合と異なります。救出するVMDKファイルは単なるデータではなくシステムデータですから、そのOSが実際に立ち上がるところまで復旧しないと復旧完了にならないわけです。なぜなら、VMDKは一つのOSの圧縮ファイルで、それをただ救出してお客様に納品してもOSが立ち上がらない可能性もある。そうなると、お客様にとっては全く意味がないことになってしまう。ですから今回は、OSと環境の復旧まで成功することが求められていたわけです。


G:
なるほど。VMDKは、単なる「データ」ではなく「システム」を保持するファイルなので、ファイルの中身が見れるというだけではダメで、実際に機能するところまで行って初めて成功といえると。そういう点では通常のデータ復旧とは成功のハードルが異なっていそうです。

趙:
難しい点はさらにありまして(笑)差分データを保持するスナップショットの復元作業に苦労しました。VMDKにはデータはないため、適切なスナップショットを結び付けてやらなければ最新データが出ない可能性があったのです。この結びつけ作業には時間がかかりました。

G:
通常のデータ復旧に比べて特別な作業がいくつもあったということですが、今回の事例では復旧作業にどれくらいの期間がかかったのでしょうか。

趙:
1週間です。

G:
思ったよりも短く感じますが……

趙:
そうですね。やはり研究で蓄積してきたノウハウが大きかったと思います。研究成果が存分に活かせたという感じですね。あと、今回の案件はお客様が状況確認に何度も当社に足を運ばれる程、急いでいましたので、当社も特急で対応いたしました。

G:
復旧作業はチームで行うと思いますが、だいたい何人くらいで作業するのですか。

趙:
基本的には2人です。

G:
それは復旧データの容量や難易度に関わらず2人ですか。

趙:
はい。もちろんデータ復旧アドバイザーとしてサポートする者や解体担当などのスタッフが他に8名ほどいますので、今回の案件に携わった者はチームとしては10名ですが、実際に復旧作業を担当するのは2名です。人数が多ければよいというわけではなく、ある一定のスキルがなければ10人いても20人いても同じですから。

◆サーバー管理者へのアドバイス

G:
VMFS仮想化サーバーをすでに導入しているユーザーに、いざデータが失われたときにどのように対処するべきかについてのアドバイスはありますか。

趙:
VMFSは複雑なシステムですのでその運用には高度な技術が必要です。ですからVMFSを導入している企業のサーバー管理者の方はみな技術者として高度なスキルを持っていると思います。ただし、スキルの高い技術者にありがちなのが「何とか解決してやろう」という気概なのです。これは私たちも技術者なので非常によく分かるのですが(笑)
管理者の方がマニュアルやネットを引用して復旧作業を行えば行うほど、必要な作業はより複雑化してしまい復旧の難易度が高くなると思っていただいて構いません。こうなると当然復旧により長い時間が必要となり、復旧コストも上がってしまいます。また、すぐに手を打てば復元できたものが復元できなくなるという最悪の事態も考えられます。状態が悪化する前にぜひ専門の業者にご相談いただきたいです。それが最も早くかつ低コストで復旧に成功する方法であると思います。


G:
やはり、プロに任せるのが良いと言うことですね。いざデータが壊れたとき以外にも、普段の運用でこうした方が良いというアドバイスはありませんか。

趙:
ハードディスクの障害に熱が関係していることは事実です。特に、仮想化サーバーでは、ハードディスクは同時にいくつものソフトウェアを動作させてデータを読み書きするため、 一般的なサーバーと比較してハードディスクに数倍の負荷がかかります。ですから、サーバールームの温度管理はもちろん換気システムに気をつけてもらうのが良いと思います。

G:
換気で温度をコントロールするようなイメージでしょうか。

趙:
そうですね。ハードディスクの部品中でもチップなど局所的に高温になる部分があるため空気の流れは非常に重要です。特に、夏場は気温も高く障害の発生が非常に多い季節ですので注意が必要です。

G:
RAIDに関して運用上注意するべきことはあるでしょうか。

趙:
RAIDは複数のハードディスクを使うことで冗長性を確保できるのですが、ここには落とし穴があります。例えば、1台のハードディスクが壊れた場合、他のハードディスクのパリティによって冗長性を保つところ、その際ハードディスクには非常に負荷がかかります。ハードディスクが壊れたままでもシステムはダウンすることなく運用可能かもしれませんが、そのままの状態を続けることは残されたハードディスクに対する負荷が大きく危険です。


G:
単に「保険がなくなった状態」というわけではないのですね。

趙:
はい。壊れたハードディスクを放置して他のハードディスクに負荷がかかった状態のまま運用を続ける場合、1週間くらいで他のハードディスクが壊れるというケースが非常に多いです。ですから、日頃からエラーメッセージに注意をし、ハードディスクに障害が発生した場合はすぐに復旧させることが大切だと言えます。

G:
最後に、VMFS(VMware)のデータ復旧に成功したとなると、当然「Hyper-Vについてはどうなのか?」というのが気になるところですが……。

趙:
現在、Hyper-Vについても復旧実績はあります。ただ、VMFSに比べると、まだ研究の余地があります。けれど、Hyper-Vを完全に把握するのにそう時間はかからないと考えています。

G:
本日はお忙しい中ありがとうございました。

◆作業風景

インタビュー後、ハードディスク復旧作業現場を取材させてもらいました。

作業フロアに入るためには、入り口でこちらの金属ゲートを通らなければなりません。金属探知機の感度は極めて高く、セルフレームの眼鏡の金属部分でもアラームが鳴るため、眼鏡さえいったん外す必要があったほど。


こちらはハードディスクの障害を切り分ける現場。物理障害であればハードディスクは続いてクリーンルームへと運ばれます。論理障害であればここで復旧作業が行われます。複数台のハードディスクの解析が同時並行でなされていることが多くのディスプレイから分かります。


こちらは物理障害を復旧するクリーンルーム。非常に細やかな作業が丁寧にされていました。


こちらは大量にストックされたドナー用のハードディスク。


今回取材の目的となったVMFSのデータ復旧は、すでに通常の復旧メニューにあげられており復旧依頼を受け付けてくれるとのこと。Hyper-Vが復旧メニューに掲載される日もそう遠くないのかもしれません。

データ復旧.comはデータの復元実績No.1|日本データテクノロジー
http://www.ino-inc.com

この記事のタイトルとURLをコピーする

・関連コンテンツ

in 取材,   インタビュー,   広告, Posted by darkhorse_log

You can read the machine translated English article here.