DELLサーバのRAIDコントローラー不具合、その復旧までの一部始終を記録してみた

GIGAZINEのサーバーに搭載しているRAIDコントローラーに不具合が発生、いつかどこかで誰かの役に立つはずだ、ということで修理を行った一部始終をレポートして共有しておくことにしました。
◆障害発見
障害が発生した時点でサーバーのLEDはオレンジ色に点滅、マシンの異常を知らせまくってます。

ちなみに、正常時は以下の様に青く点灯しています。

障害箇所を特定するためにDellServerAdministrator(SA)コマンドを実行し、サーバの状態を確認してみた結果は以下の通り。ハードウェアログ(太字部分)に「クリティカル」の表示があり、異常が発生していることがわかります。
# omreport chassis
Health
Main System Chassis
SEVERITY : COMPONENT
Ok : Fans
Ok : Intrusion
Ok : Memory
Ok : Power Supplies
Ok : Power Management
Ok : Processors
Ok : Temperatures
Ok : Voltages
Critical : Hardware Log
Ok : Batteries
続けて、以下のようにコマンドを実行したところ……。
# omreport system esmlog
Severity : Critical
Date and Time : Tue Jun 19 11:08:06 2012
Description : The disk drive bay battery has failed.
上記のような表示となり、バッテリーに異常があることがわかりました。なお、このマシンは以前記事にしたRAIDコントローラーバッテリーの不具合を起こしたマシンと同一のもので、1ヵ月ほどしか経過していないのに同様のエラーが発生しているため、前回の修理では何か不十分な点があったようです。
というわけで、DELLのハードウエアサポートに相談してみたところ「RAIDコントローラ本体に異常がある可能性があります。念のためにバッテリーも交換しましょう」という結論になりました。
◆部品到着
デルからRAIDコントローラーの新品(右)とバッテリーが到着。

RAIDコントローラーの箱を開封。

中身はこんな感じ。

袋から出した所は以下の通り。

バッテリーの箱も開封。

こちらも袋入り。

充電可能なリチウムイオンバッテリー。


この部分にケーブルをさしこんでコントローラーに給電します。

必要な部品がそろったので、後はサポートの中の人が到着するのを待つばかり。

◆修理開始
作業員が到着したのでサーバールームに入ってもらい、まずはログの確認を行います。

RAIDコントローラーの障害だろう、というアタリは付けてあるのでその部分を重点的にチェック。

OSのシャットダウンをしてサーバーを停止させ、部品交換作業をスタート。
まずは、修理したあとでケーブル類を元通りに接続できるようにするため、識別タグを取り付けます。

静電気の発生や床がキズ付くことを防ぐためのシートを敷きます。

ちょっと厚手のピクニックマットみたいな感じ。

棚からマシンを取り出して……。

オープン。

RAIDコントローラーを抜き取ります。


新品を取り出してケーブルを接続。

「ガシャン」とはめこめば交換完了。

次はバッテリーをケースごと取り外します。

こちらも、新しい部品をつないで元の場所に収めればOK。

先に付けたタグを見ながら元通りケーブルを接続していきます。なお、RAIDコントローラーのファームウェアのアップデートと初期化の際にハードディスクのケーブルを外す必要があるので、側面のパネルは開けたまま作業を行っています。

CDを取り出して、RAIDコントローラーのファームアップを実行。


アップデートが完了しました。

さらに一度設定を工場出荷時の状態にして、HDDからRAIDの構成を読み込ませることで正しい設定に戻します。

後はケース側面のカバーを閉じて……。

棚にマシンを収めます。

この時点で、ハードウェアの状況を示すランプは青色になっており、問題が無いことがわかります。

BIOSからRAID構成を確認して、正常に機能していることを確認。

正常です。

後はRAIDログを削除すれば作業完了なのですが……。

異常を示すオレンジ色のランプが再び点滅を始めました。

修理前と同じでバッテリーに問題があるという表示が出てしまいます。既に、バッテリーもRAIDコントローラーも新品と交換しているので、少し戸惑う結果です。

サポートの中の人も困って会社と相談をしています。

結局、この段階で考えられる故障としては、RAIDコントローラーとバッテリーを結ぶケーブルの破損かマザーボードそのものの不具合になるので、後日再修理をすることになりました。
◆2回目の修理
前回の修理の結果を踏まえて予測される障害箇所であるマザーボードとケーブルの中から、まず交換が容易なケーブルに着手してみることに。

前回と同様にログをチェックし、OSをシャットダウンした後にケースを開けてパーツを取り外します。

古いケーブルを外して……。

新しいものをつなぎ直します。

今回は時間が経ってもちゃんと青色のランプが点灯しています。

サーバ起動後にバッテリーの状態を確認すると「充電中(Charging)」となっており1時間ぐらいで充電が完了したので、今度こそ正常に修理が完了したことを確認できました。あとはこのまま何事もなく稼働し続けてくれればいいのですが、既に1ヶ月前にも故障しているので、前途多難な予感がします。
・関連記事
DELLサーバのRAIDコントローラーのバッテリーを交換してみた - GIGAZINE
DSET(Dell System E-support Tool)でサーバの故障箇所を特定してみた - GIGAZINE
GIGAZINEで使っているWebサーバ「PowerEdge T310」障害の一部始終 - GIGAZINE
「RAIDを過信してはいけない」、データのバックアップやRAID復旧についてHDDのプロに聞いてみた - GIGAZINE
トラブルをわざと発生させサーバ問題解決能力を鍛える「Trouble-Maker」 - GIGAZINE
・関連コンテンツ
in レビュー, ハードウェア, Posted by darkhorse_log
You can read the machine translated English article I tried to record the failure of the RAI….