メモ

さまざまなデータ分析エンジニアが目撃したこれまでで最悪の失敗は?


長年IT企業に勤めているとさまざまな失敗を目にします。Redditで「Worst Data Engineering Mistake youve seen?(これまでに見た中で最悪のデータエンジニアリングの失敗は何でしたか?)」というスレッドが立っており、多数のエンジニアが自分の経験を語りました。

Worst Data Engineering Mistake youve seen? : dataengineering
https://reddit.com/r/dataengineering/comments/16vhp70/worst_data_engineering_mistake_youve_seen/


スレッドを作成したInevitable-Quality15さんも下記の通り自身の経験を投稿しています。

「私はDatabricksを導入したばかりの会社で働き始めましたが、それがどのように機能するのか理解していませんでした。そこで、週末に実行しても大丈夫だったので自動終了をオフにし、汎用コンピュート(価格3倍)を使用してプライベートクラスターですべてを実行するように設定しました。財務部は2か月後にDatabricksの使用をやめさせました(笑)」


Databricksの料金はプロセッサーの処理能力に応じた単価であるDBUをベースに稼働時間で決まります。Inevitable-Quality15さんの場合は一番単価の高い汎用コンピュートを複数のノードでクラスター化したうえ、しばらくアイドル状態になると自動でシャットダウンする機能をオフにしていたため請求が高額になってしまったというわけです。

また、数々の企業を渡り歩いてきたというbitsynthesisさんは多数の目撃談を投稿しました。

・金曜日にサードパーティーのホストから多数のファイルをダウンロードする巨大なバッチジョブを走らせて帰宅したエンジニア
月曜日に会社に行くと10万ドル(約1470万円)の請求書と、サードパーティーへのDDoSを理由にアカウントを閉鎖すると警告するAWSからのメールが届いていたとのこと。なお、ファイルのダウンロードは完了にはほど遠い状態でした。

・ヘルプデスクから昇進したのに数カ月後にメインの本番環境データベースを削除してしまった若手エンジニア
その本番環境データベースは内部ネットワーク上の誰に対しても全く安全ではない状態だったため起きるべくして起きたという事故だったようです。なお、復旧には12時間かかったとのこと。


・サーバーレスストリーミングパイプラインの入出力にS3の同じ場所を指定してしまった事件
AWSのAmazon Simple Storage Service(Amazon S3)を利用して、ドキュメントがS3に保存されると自動で処理を行うストリーミングパイプラインを構成する際に、誤って入力・出力ともに同じ場所を使用するように指定してしまうというミスが発生しました。出力されたドキュメントが再び処理されて同じ場所に出力されるというループが約1年ほど誰にも気付かれなかったため、その場所に保存したドキュメントが数億回も複製されていたとのこと。AWSから「数億のバージョンを持つオブジェクトがバックエンドシステムに問題を発生させている」と苦情があり発覚しました。

・大規模な運用ETLパイプラインでデバッグログを有効化したエンジニア
ログ集約サービスから1週間で10万ドル(約1470万円)以上の費用を請求されました。

・データ取り込みシステムのJSON実装が使用に準拠していなかった事件
全てのユーザー向けの「レガシー」なデータ取り込みシステムが初めてJSONをサポートした際に、担当チームはJSON仕様に準拠していない独自のカスタムJSONエンコーダを実装したため標準のJSONライブラリで解析できなくなりました。このデータ取り込みシステムは「レガシー」と言いつつも実際には唯一のものであり、担当チームはこの問題を修正するように求められましたが、「レガシーの変更を修正することは正当化できない」という理由でその他のチーム全てにJSONの解析システムを再構築するように求めました。

その他、元のスレッドでは「実験のためだけにRedshiftのクラスターを起動したのに立ち上げたまま忘れてしまって12万ドル(約1760万円)損した」「視覚化ツールでBigQueryの巨大テーブルをパーティション化せずにクエリしていて5倍以上費用がかかっていた」などさまざまな失敗談を読むことができるので、気になる人は確認してみてください。

この記事のタイトルとURLをコピーする

・関連記事
素人が絵画を修復しようとして大失敗する事態がまたもや発生、専門家が素人によるアート修復の規制を訴える - GIGAZINE

スプレッドシートに時限式のバグを混入させて仕事を失わないようにしたエンジニアに有罪判決が下る - GIGAZINE

「なぜスプラトゥーン3のステージは失敗してしまったのか」をプロゲーマー&アナリストが解説 - GIGAZINE

およそ800万円の医療費に愕然としたエンジニアが自宅でX線装置を開発 - GIGAZINE

ウェブサイトの改善をプロに依頼したら予想以上の時間とコストがかかって後悔した話 - GIGAZINE

in メモ,   ソフトウェア, Posted by log1d_ts

You can read the machine translated English article What's the worst failure you've ….