レビュー

想定外の壊れ方をしたDELL製サーバの復旧まで一部始終のレポート


先日、まだ実稼働して2週間足らずのサーバが急にフリーズしてしまい、サーバへのアクセスが全くできなくなってしまったので、慌ててサーバ室に駆け込んでみると、ハードディスクにエラーが出ていました。

このサーバは、SASハードディスク2枚をRAID1(ミラーリング)で構成してるので、1枚のハードディスクが壊れてもシステムがフリーズすることは無いはず。しかし、実際にサーバがフリーズしているので、原因を調べて復旧することにしました。

サーバ復旧までの一部始終の詳細は以下から。
まず、サーバ構成はこんな感じ。
・筐体:DELL PowerEdge T300
・RAIDコントローラー:SAS 6/iR Adapter
・OS:CentOS5.2

こんな感じでハードディスクのランプが緑・オレンジ・消灯と繰り返しています。明らかに正常ではない点灯のしかたですね。


そこで完全にフリーズしていて何もできないので強制リブートしてみると、とりあえず正常稼働。
しかし、ハードディスクの異常表示が消えないのでDELLのサポートセンターに連絡することにしました。

・サポートセンター
とりあえずDELLのサポートセンターに現象を伝えてみると、ハードディスクの点灯は「HDDがもうすぐ壊れますよ」の警告が出ているだけで、まだHDDは壊れてはいないとのこと。次に、OSがフリーズしたことを伝えると、やはり「HDDが原因の可能性が高くたまにある」とのこと。壊れていないのにその予兆のエラーで停止してしまうようでは、RAID1の意味が全くないどころか、逆にRAID1では無い方が安全なのでは・・・。とにかくHDDの修理を依頼したところ、翌日にはハードディスク交換が可能とのこと。

調べてみると、DELL謹製ツールの「OpenManage Server Administrator」がインストールされているとサーバを停止せずにHDD交換できる(正常にリビルドしているかなどの確認などができる)とのことなので、早速インストールしてみることにしました。

・「OpenManage Server Administrator」のインストール


Repository/OMSA - DellLinuxWiki

まずは、初めにレポジトリの登録を行います。
wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi | bash

次にインストール
yum install srvadmin-all

これでインストール終了。

次に以下のものを起動する。
service instsvcdrv start
service dsm_sa_ipmi start
service mptctl start
service dsm_om_connsvc start
service dsm_om_shrsvc start
service dataeng start

最後にURL経由で接続してみる。こんな画面が表示されればOK。
https://ドメインまたはIPアドレス:1311/

ログイン画面はこんな感じ。ユーザー名とパスワードを入力。


ログインすると「Storage」に注意マークが出ている。基本的にこの注意マークを追って行けばエラー場所にたどり着けるので「Storage」を選択する。


「SAS 6/iR Adapter」を選択する


「connector 0(RAID)」を選択する


「Enclosure (Backplane) 」を選択する


「Physical Disks」を選択する


「Physical Disk 0:0:1」にエラーが発生していることがわかる



・HDD交換

まずは警告の出ているHDDを抜きます。

ディスクを抜くと、前面LEDがエラー表示に切り替わります。


ムービーだとこんな感じ。


ディスクを取り外したところ。注意マークから完全なエラーに変わっています。


また、新しいHDDを入れると自動でリビルドが開始します。

LEDがオレンジ色から緑色へ


リビルド中。あとは、リビルドが正常に終了することを願うだけ。


リビルドが完了。正常表示へ。


もちろんシステム全体も正常となっている


ディスクのランプも正常を示す緑色に。完全復旧。



最後にアラートログの確認方法です。「Logs」のタグ、「Alert」を選択します。


HDDの警告ログはこれ


ハードディスクを抜いたときのログ


また、別途「IT Assistant」がインストールしてある監視サーバがあると、エラーや警告などを電子メールで知らせることも可能です。

しかし、RAID1で片方のHDDに警告が出ただけで、システム全体がフリーズする現象はどうにかして欲しいものです。

この記事のタイトルとURLをコピーする

・関連記事
Dellがノートパソコンを壊し、代わりに陰毛付きノートパソコンが届いた - GIGAZINE

DELLのキーボード配列がおかしいことが判明 - GIGAZINE

DELLのノートパソコンが突然、爆発炎上 - GIGAZINE

防水&SSD&ファンレス、DELLの一味違った低価格ノートパソコン「Inspiron Mini 9」が一気に値下がり - GIGAZINE

打倒iPod、DELLが雪辱を果たすために安価な音楽プレーヤーで殴り込み - GIGAZINE

in レビュー,   ソフトウェア,   ハードウェア,   動画, Posted by darkhorse_log

You can read the machine translated English article here.