自動運転用の人気データセットで数百人分の歩行者がラベル付けされていなかったと判明
人間による運転操作がなくても車が自動で走行する自動運転では、走行を制御するアルゴリズムが重要です。安全性の高い自動運転を行うためには、膨大なデータセットを用いた機械学習でアルゴリズムを訓練する必要がありますが、オープンソースの自動運転アルゴリズムで一般的に使われているデータセットの画像で「歩行者が正しくラベル付けされていない」ことがわかったと報じられています。
Self-driving car dataset missing labels for hundreds of pedestrians
https://blog.roboflow.ai/self-driving-car-dataset-missing-pedestrians/
自動運転車は安全に走行するために、周囲の状況をカメラやセンサーで逐一把握し、その情報を基にアルゴリズムが車の走行を制御します。自動運転用アルゴリズムの精度は機械学習によって格段に上げられるようになりましたが、機械学習には自動運転用の車載カメラで撮影された大量の画像と、「その画像に何が写っているのか」をまとめた情報(ラベル)を含む膨大なデータセットが必要になります。
機械学習を行う開発者にとって最も苦労するポイントのひとつが、このデータセットの構築。大量の画像を収集し、それらにひとつひとつラベル付けを行うのは相当の労力が求められるため、大学の研究プロジェクトなど、限られた予算の中で自動運転システムを開発する学生にとってはこのデータセットの構築は大きな壁となります。
そこで、オープンソースとしてGitHubなどで公開されているデータセットがしばしば利用されており、その中でもおよそ1万5000枚の画像を含むUdacity Dataset 2が特に人気の高いデータセットです。しかし、機械学習開発を行う企業「roboflow」の創設者であるブラッド・ドワイヤー氏が手動ですべての画像をチェックしたところ、全体の約33%にあたる4986枚の画像に「正しくラベル付けがされていない」という問題があるとわかりました。
以下の画像が、問題のあった画像の例。画像の中で水色の枠で囲まれている部分がラベル付けされているもの。一方、赤色の枠で囲まれている部分はラベル付けをされていなかったもの。例えば左上の画像では車の前に自転車が飛び出してきている状況ですが、自転車にはラベル付けがされておらず、このデータで学習した場合、目の前に自転車が飛び出してきたことを認識できる精度が落ちます。他にも交差点を横切る車や横断歩道を渡る歩行者、歩道上の歩行者などがラベル付けされていません。
また、問題のあった画像のうち、217枚はまったくラベル付けがされていなかったとのこと。しかし、これらの画像には路肩を進む自転車や歩行者、路上駐車などが含まれていたことがわかりました。
ドワイヤー氏は「オープンソースのデータセットは素晴らしいものですが、共有するデータが完全で正確であることを保証するために、よりよい仕事をする必要があります。一般公開されているデータセットをプロジェクトで採用する場合は、実環境で使用する前にデューディリジェンスを行い、データセットの完全性を確認してください」と注意を促しています。
なお、ドワイヤー氏は問題となったUdacity Dataset 2を修正し、独自の完全版をリリースすると述べました。
・関連記事
Googleマップを利用して「自動車が来ない空間」を作り出すテクニック - GIGAZINE
無料で機械学習やデータ処理の流れを簡単に可視化してくれるワークフローツール「Flyte」を触ってみた - GIGAZINE
わずか11万円で自動車を「完全自動運転車」に改造できる手作りキット「comma two devkit」発売 - GIGAZINE
トヨタが構築予定の自動運転・ロボット・AIが組み込まれた実験都市「Woven City」の全貌とは? - GIGAZINE
テスラが完全自動運転機能をチラ見せ、車内で楽曲制作も可能に - GIGAZINE
画像認識モデルの「盲点」を克服するための奇妙な画像ばかり集めたデータセット「ObjectNet」をMITとIBMの研究チームが公開 - GIGAZINE
・関連コンテンツ