レビュー

DELLサーバのRAIDコントローラーのバッテリーを交換してみた


サーバルームにて、とある案件について検討していたところ、偶然、あるサーバのLEDがオレンジ色に点滅しているのを発見。「エラーが起きたのか?」と思って見ているとすぐに消えてしまい、「?」と思ってしばらく経つとまた点灯するというわけのわからない状態に。どうやら点滅頻度は30秒に1回程度、すぐに通常状態(青色点灯)に戻るため、一瞬見ただけでは気がつかないものだったわけです。上記写真がその時の状態。

障害箇所を特定するため、まずはインストールしてある「Dell Server Administrator」から以下のコマンドを実行。

# omreport chassis
Health

Main System Chassis

SEVERITY : COMPONENT
Ok : Fans
Ok : Intrusion
Ok : Memory
Ok : Power Supplies
Ok : Power Management
Ok : Processors
Ok : Temperatures
Ok : Voltages
Critical : Hardware Log
Ok : Batteries

「Critical : Hardware Log」ということで、これが原因らしいということがわかり、以下のコマンドを実行して確認。

# omreport system esmlog

結果、ログが満杯になっているのが原因だったため、以下のコマンドでログを消すことに。

# omconfig system esmlog action=clear

しかしなぜかLEDのオレンジ点灯が解消せず、仕方ないのでDELLのサポートに連絡。いろいろとアドバイスを受けたものの釈然とせず、クリア直後のログを見たところ、「The disk drive bay battery has failed.」という記述を発見、つまりバッテリーが原因だとこの段階で判明。さらにログを解析したところ、「RAIDコントローラのバッテリー、または、RAIDコントローラ自体の障害の可能性がある」というDELLの見解を受け、まずはバッテリー交換、それでだめならRAIDコントローラーごと交換する、ということに。作業は5月14日(月)15時からとなり、DELLのサポートの中の人が来ることに。

作業予定日の5月14日(月)、まずは午前中にパーツが到着。DELLのサポートの中の人が持ってこないポリシーになっているそうで。


ふたを開けて中身を確認


RAIDコントローラーですね


もうひとつの小さな箱も開けてみることに。


ぱかっとな。


中身はRAIDコントローラーのバッテリーでした


そして15時ちょうどにDELLから委託されている業者の中の人が到着、サーバを引きずり出して作業開始。当然、GIGAZINE自体が止まらないように、すでに別サーバへ密かに切り替え済みなので、GIGAZINE読者はまったく気づかない仕組みになっています。


ドライバーでねじをまわし、側面のふたを開けます


電源を完全に落としたのはおそらくこのサーバを導入して以来なので、久々に中を見た感じ


左下の赤い枠で囲ってあるのがバッテリーです。すぐに交換可能な位置にあるので、次回以降はバッテリーさえ送ってもらえれば自分で作業できそうなぐらい簡単。


交換した結果、正常動作に成功、LEDの異常点灯も消えました。

で、来てくれた中の人の話によると、このRAIDコントローラーの場合、バッテリーがなくなると何が起きるかというと、「メモリに一時的にため込まずにハードディスクにデータを直接書き込む」ようになってしまう、とのこと。つまり、「Write」時にメモリをスルーするようになり、結果、ディスク書き込みが多いときにパフォーマンスが低下してしまうそうです。GIGAZINEの場合は幸いにして読み込みの方が圧倒的に多く、書き込みがほとんど無かったため、パフォーマンスの低下がほとんど無かった、というわけ。

なお、こういう記事が載るということは、前回は求人でしたが、今回は求人とは違って近々何か大きな動きがある……ということの証拠です。乞うご期待。

この記事のタイトルとURLをコピーする

・関連記事
DSET(Dell System E-support Tool)でサーバの故障箇所を特定してみた - GIGAZINE

トラブルをわざと発生させサーバ問題解決能力を鍛える「Trouble-Maker」 - GIGAZINE

Facebook最新の自社サーバとデータセンターの写真や仕様が満載、高度なサーバ効率化技術を公開する「Open Compute Project」開始 - GIGAZINE

遠隔地からハングしたサーバの電源ON/OFFやBIOS操作が可能なリモートマネジメントカード「Lights-Out 100」を使ってみた - GIGAZINE

想定外の壊れ方をしたDELL製サーバの復旧まで一部始終のレポート - GIGAZINE

in レビュー,   ハードウェア, Posted by darkhorse

You can read the machine translated English article here.