レビュー

DSET(Dell System E-support Tool)でサーバの故障箇所を特定してみた


「できるだけ安く」「集積性は問題にしない」という方針のもと、GIGAZINEのサーバは何を血迷ったのかコスト重視で運営するために苦渋の決断としてタワー型をあたかも自宅サーバのようにずらずら並べているわけですが、「AmazonのAWSだとコストが割に合わないけど、さくらのクラウドなら移行できるかも」とか夢想していると、エラー通知を出しているサーバを2台ほどシステムが検知。

「なんだなんだ?この年末に……」と思いながらサーバルームへ見に行くことに。


物理的にはこれらしい


オレンジ色のランプが点灯中、こいつですね、確定


背面を見ると、2つある電源ユニットの内、右側のランプが消えています


左側は生きていますが、右側は死亡。冗長化電源なのでサーバ自体は動き続けていますが、もちろん早急に交換することに。


もう一方のサーバは電源ユニットは無事、見る限りでは何のエラーかは不明。詳しく調査する必要性があります。


サーバの故障箇所を特定するだけならいくらでも方法はあるのですが、今回はDELLのサポートを受けるため、DELLの提供している「DSET(Dell System E-support Tool)」を使います。GUIではなくCUIで管理しているので、以下から該当するファイルをダウンロードします(DSETのトップページである「Dell System E-Support Tool」からだとリンク先がミスっており、「32bit」をクリックしてもリンク先が64bitなので要注意、URLのパラメータを変更して今回は正しいリンク先を突き止めました)。

32bit版:ファイル名「delldset_v2.2.125_x86_A01.bin」

64bit版:ファイル名「delldset_v2.2.125_x64_A01.bin」

手順自体は以下のDELLのサポートページにまとまっています。


Dell PowerEdge シリーズ DSET ツールの使用方法 for Linux (v2.x) - JPFAQ_198510 | デル Japan

ダウンロードした診断ツールのファイルをWinSCPなどで転送し、SSHでログインします。今回はPoderosaを利用しました(2011年12月1日に「4.3.6b-experimental」がリリースされています)

規約が出てくるので「q」キーを押して前に進みます。


「y」キーを押し、診断ツールを実行するため「2」キーを押します。


会社名とメールアドレスを入力


しばらく待ちます


各種オプションを以下の画面のように設定し、レポートが生成されるのを待ちます


さらにしばらく待ちます……


こうなればレポート生成完了


生成されたZIPファイルをDELLのサポートに送信すれば、あとはDELLが問題箇所を特定してくれるわけですが、このZIPファイルの中にあるレポートを見れば自力で問題特定することは割と簡単です。マニュアルによるとこのZIPファイルのパスワードは「dell」となっており、解凍して中にある「dsetreport.hta」を開くときれいにまとめられたレポートを見ることが可能です。


電源が故障したように見えるサーバの場合、「System」から「Hardware Log」を見るとこのようにして「×」が付いているのがエラーのログ。


「System」から「Main Chasis」を選び、「Power Supplies」を見ると確かに片方の電源が「×」マークになって死んでいます。さらに厳密に問題を切り分けるには、サーバの電源をシャットダウンし、死亡していると思われる電源ユニットを取り外し、まだ生きている電源ユニットをセットし直し、電源をオンにして起動するのであれば、電源ユニットが死んでいることが確定できるので、新しい電源ユニットと交換すればOK。もしブートしないのであれば電源ユニットではなくさらにその先のマザーボード部分で死んでいるため、サーバのマザーボードごと交換となります(違うケースもあり)。


先ほどのサーバであれば外側から見るだけでも問題が特定できるほど簡単だったわけですが、もう一台の方はぱっと見る限りどこがエラーを出しているのか不明。同じような手順でDSETを起動してレポートを生成させてみたところ、ものすごい量のログが発生しており、「Log is full」ということでログを書き込む領域が満杯になっているようです。


エラーログの内容を見る限り、RAIDのコントローラのバッテリーがエラーの原因らしいのですが、その肝心のコントローラのバッテリー自体は「現時点」ではエラーを起こしていません。


あとはログを一旦クリアするためにサーバを物理的に再起動するか、あるいはDSETを使って「3) Clear ESM Hardware Log Only」を選べば、物理的再起動をすることなくログをクリアし、エラーの警告とランプ点灯を消すことが可能、というわけです。めでたしめでたし。

そんなわけでGIGAZINEではさりげなくサーバ管理者を募集していますので、「この程度の管理・保守ならできそう」という場合は、ここをクリックして履歴書と職務経歴書を送っていただければ非常にうれしいです。なお、スパム防止のため、「reCAPTCHA Mailhide」を使用しています。

……そう、この記事はサーバトラブルの復旧記録だと思わせておいて、その実態は求人記事だったのです、なんということでしょう!

この記事のタイトルとURLをコピーする

・関連記事
トラブルをわざと発生させサーバ問題解決能力を鍛える「Trouble-Maker」 - GIGAZINE

Facebook最新の自社サーバとデータセンターの写真や仕様が満載、高度なサーバ効率化技術を公開する「Open Compute Project」開始 - GIGAZINE

遠隔地からハングしたサーバの電源ON/OFFやBIOS操作が可能なリモートマネジメントカード「Lights-Out 100」を使ってみた - GIGAZINE

想定外の壊れ方をしたDELL製サーバの復旧まで一部始終のレポート - GIGAZINE

in レビュー,   ソフトウェア,   ハードウェア, Posted by darkhorse

You can read the machine translated English article here.