ハードウェア

ハードディスクに障害が発生する可能性を機械学習で予測する研究


ハードディスクドライブ(HDD)は安価に大容量のストレージを用意でき、長期保存に適しているというメリットがありますが、衝撃や熱に弱いというデメリットがあり、精密部品も多く使われているため、物理障害も十分起こり得ます。オンラインストレージサービスを提供するBackblazeが、ハードディスクの状態から機械学習で将来的に障害が起こりうる可能性を予測する技術の研究論文を解説しています。

Interpretable predictive maintenance for hard drives - ScienceDirect
https://www.sciencedirect.com/science/article/pii/S2666827021000219


Using Machine Learning to Predict Hard Drive Failures
https://www.backblaze.com/blog/using-machine-learning-to-predict-hard-drive-failures/


Backblazeは毎日、世界中のデータセンターからHDDの型番やシリアル番号、S.M.A.R.T.などのデータを収集しており、2013年4月までで累計2億6600万件以上の記録が集まっているとのこと。2021年9月30日時点でも19万1000台のHDDからデータがBackblazeの下に送られているそうです。

HDDの自己診断機能であるS.M.A.R.T.には、データ転送速度や通電時間、HDDの温度、シークエラーの頻度、ディスクの回転モーターの始動・停止回数などが記録されています。


このS.M.A.R.T.のデータからHDD障害を予測する試みは1990年代から行われていました。例えば、Backblazeが2014年2016年に発表した研究、そしてGoogleが2007年に発表した研究では、S.M.A.R.T.情報のうち「05:代替処理済みのセクター数」「BB:訂正不可能エラー数」「BC:コマンドタイムアウト」「C5:代替処理保留中のセクター数」「C6:回復不可能セクター数」がHDDの障害に相関するとして、それぞれで単変量解析を行っています。

今回Backblazeが注目した論文は、AI企業のInterpretable AIの研究チームが発表したもの。研究チームはSeagate製のヘリウム充填型HDD「ST12000NM0007」3万5000台以上から、2017年第1四半期(1月~3月)から2020年第1四半期まで毎日収集したS.M.A.R.T.情報を分析。そして、各HDDの残り耐用年数を計算し、そのデータをS.M.A.R.T.と組み合わせ、残り寿命がS.M.A.R.T.属性からどのように影響を受けるかを示すサバイバルツリーをAIに構築させ、障害予測を行いました。

年単位での長期的な予測を行うためのサバイバルツリーが以下。ツリーの一番上にあるノード1では「05:代替処理済みのセクター数」を検証します。その結果が1.5未満ならノード2に進んで「03:スピンアップ時間」の検証へ、1.5以上ならノード15に進んで「C5:代替処理保留中のセクター数」の検証へ進みます。検証とその結果によって分岐を重ね、予測していきます。


例えば、最下層にあるノード18は「ここまで検証が進んだHDDの少なくとも半分は2年以内に故障しないこと」を予測しているとのこと。反対にノード11に検証が進んだHDDは「50日以内に障害が発生する」と予測されるそうです。

そして、90日という範囲で短期的な予測を行うためのサバイバルツリーが以下で、この場合は最下層のノード21およびノード24に分岐したHDDは90日以内にほぼ確実に障害が予測されるとのこと。一方でノード12および15に分岐したHDDは90日以内に障害が発生する可能性がほとんどないそうです。


さらに30日という超短期的な予測を行うためのサバイバルツリーがこんな感じ。


なお、研究チームはHDDの長期的な予測を行うにあたり、2017年から2020年までの3年分のデータを使用してから、2019年から2020年までの1年分にデータを限定し、観測値を55万7936件に減らしました。その後、さらに最初のデータセットから観測値をランダムに再サンプリングしてAIモデルを学習し、残りをテストに使用したそうです。

Backblazeは「ドライブの故障を予測することはできますが、完璧ではないことは明らかです。しかし、Backblazeではそのような必要はありません。私たちの環境では、ドライブが故障した場合、多数のバックアップ戦略が用意されています」「デジタルライフを1台のHDDやSSDに信頼して任せてる場合は、障害予測のことは忘れ、むしろ障害が発生することを想定してデータのバックアップを行ってください」とコメントしています。

この記事のタイトルとURLをコピーする

・関連記事
試行錯誤しても取り出せなかった破損データを見事に復活させた「まさか」のソフトウェアとは? - GIGAZINE

合計18万台近いHDDの故障率レポート2021年Q2版をBackblazeが公開、HDDとSSDの故障率比較も - GIGAZINE

HDD故障率のメーカー・モデル別統計データ2020年版、故障率が最も高かったのは? - GIGAZINE

約15万台のHDDを運用するBackblazeがHDD故障率レポート2020年Q3版を公開、18TBモデルなど大容量化が進む - GIGAZINE

HDDが大容量化しても「RAIDを恐れなくてもいい」理由とは? - GIGAZINE

13万台以上のHDD故障率レポート2020年Q1版をBackblazeが公開、強さを見せたHDDメーカーはどれ? - GIGAZINE

新しいHDDを使用する時に執り行うべき「儀式」とは? - GIGAZINE

in ハードウェア, Posted by log1i_yk

You can read the machine translated English article here.