レビュー

DELLサーバのRAIDコントローラー不具合、その復旧までの一部始終を記録してみた


GIGAZINEのサーバーに搭載しているRAIDコントローラーに不具合が発生、いつかどこかで誰かの役に立つはずだ、ということで修理を行った一部始終をレポートして共有しておくことにしました。

◆障害発見

障害が発生した時点でサーバーのLEDはオレンジ色に点滅、マシンの異常を知らせまくってます。


ちなみに、正常時は以下の様に青く点灯しています。


障害箇所を特定するためにDellServerAdministrator(SA)コマンドを実行し、サーバの状態を確認してみた結果は以下の通り。ハードウェアログ(太字部分)に「クリティカル」の表示があり、異常が発生していることがわかります。

# omreport chassis
Health

Main System Chassis

SEVERITY : COMPONENT
Ok : Fans
Ok : Intrusion
Ok : Memory
Ok : Power Supplies
Ok : Power Management
Ok : Processors
Ok : Temperatures
Ok : Voltages
Critical : Hardware Log
Ok : Batteries


続けて、以下のようにコマンドを実行したところ……。

# omreport system esmlog

Severity : Critical
Date and Time : Tue Jun 19 11:08:06 2012
Description : The disk drive bay battery has failed.


上記のような表示となり、バッテリーに異常があることがわかりました。なお、このマシンは以前記事にしたRAIDコントローラーバッテリーの不具合を起こしたマシンと同一のもので、1ヵ月ほどしか経過していないのに同様のエラーが発生しているため、前回の修理では何か不十分な点があったようです。

というわけで、DELLのハードウエアサポートに相談してみたところ「RAIDコントローラ本体に異常がある可能性があります。念のためにバッテリーも交換しましょう」という結論になりました。

◆部品到着

デルからRAIDコントローラーの新品(右)とバッテリーが到着。


RAIDコントローラーの箱を開封。


中身はこんな感じ。


袋から出した所は以下の通り。


バッテリーの箱も開封。


こちらも袋入り。


充電可能なリチウムイオンバッテリー。


この部分にケーブルをさしこんでコントローラーに給電します。


必要な部品がそろったので、後はサポートの中の人が到着するのを待つばかり。


◆修理開始

作業員が到着したのでサーバールームに入ってもらい、まずはログの確認を行います。


RAIDコントローラーの障害だろう、というアタリは付けてあるのでその部分を重点的にチェック。


OSのシャットダウンをしてサーバーを停止させ、部品交換作業をスタート。

まずは、修理したあとでケーブル類を元通りに接続できるようにするため、識別タグを取り付けます。


静電気の発生や床がキズ付くことを防ぐためのシートを敷きます。


ちょっと厚手のピクニックマットみたいな感じ。


棚からマシンを取り出して……。


オープン。


RAIDコントローラーを抜き取ります。


新品を取り出してケーブルを接続。


「ガシャン」とはめこめば交換完了。


次はバッテリーをケースごと取り外します。


こちらも、新しい部品をつないで元の場所に収めればOK。


先に付けたタグを見ながら元通りケーブルを接続していきます。なお、RAIDコントローラーのファームウェアのアップデートと初期化の際にハードディスクのケーブルを外す必要があるので、側面のパネルは開けたまま作業を行っています。


CDを取り出して、RAIDコントローラーのファームアップを実行。


アップデートが完了しました。


さらに一度設定を工場出荷時の状態にして、HDDからRAIDの構成を読み込ませることで正しい設定に戻します。


後はケース側面のカバーを閉じて……。


棚にマシンを収めます。


この時点で、ハードウェアの状況を示すランプは青色になっており、問題が無いことがわかります。


BIOSからRAID構成を確認して、正常に機能していることを確認。


正常です。


後はRAIDログを削除すれば作業完了なのですが……。


異常を示すオレンジ色のランプが再び点滅を始めました。


修理前と同じでバッテリーに問題があるという表示が出てしまいます。既に、バッテリーもRAIDコントローラーも新品と交換しているので、少し戸惑う結果です。


サポートの中の人も困って会社と相談をしています。


結局、この段階で考えられる故障としては、RAIDコントローラーとバッテリーを結ぶケーブルの破損かマザーボードそのものの不具合になるので、後日再修理をすることになりました。

◆2回目の修理

前回の修理の結果を踏まえて予測される障害箇所であるマザーボードとケーブルの中から、まず交換が容易なケーブルに着手してみることに。


前回と同様にログをチェックし、OSをシャットダウンした後にケースを開けてパーツを取り外します。


古いケーブルを外して……。


新しいものをつなぎ直します。


今回は時間が経ってもちゃんと青色のランプが点灯しています。


サーバ起動後にバッテリーの状態を確認すると「充電中(Charging)」となっており1時間ぐらいで充電が完了したので、今度こそ正常に修理が完了したことを確認できました。あとはこのまま何事もなく稼働し続けてくれればいいのですが、既に1ヶ月前にも故障しているので、前途多難な予感がします。

この記事のタイトルとURLをコピーする

・関連記事
DELLサーバのRAIDコントローラーのバッテリーを交換してみた - GIGAZINE

DSET(Dell System E-support Tool)でサーバの故障箇所を特定してみた - GIGAZINE

GIGAZINEで使っているWebサーバ「PowerEdge T310」障害の一部始終 - GIGAZINE

「RAIDを過信してはいけない」、データのバックアップやRAID復旧についてHDDのプロに聞いてみた - GIGAZINE

トラブルをわざと発生させサーバ問題解決能力を鍛える「Trouble-Maker」 - GIGAZINE

in レビュー,   ハードウェア, Posted by darkhorse_log

You can read the machine translated English article here.