人工知能の「盲点」を人間からフィードバックを得て補うモデルを研究者が作成
by Amanda Dalbjörn
自動運転システムなどで用いられる人工知能は、シミュレーションを行うことにより様々な状況を学習していますが、実世界で発生することが稀な状況に出会うと状況に対応できずエラーを起こすことがあります。このため、マサチューセッツ工科大学とMicrosoftの研究者が、人間ならどう対応するかを注意深く観察し、最良の行動を取るための方針に組み込むモデルを作成しました。
Identifying artificial intelligence “blind spots” | MIT News
http://news.mit.edu/2019/artificial-intelligence-blind-spots-0124
従来のトレーニングでも人間がフィードバックを与える事例はあるのですが、あくまでシステムの動作を更新するに留まり、実世界で運用した際に安全な判断につながる「盲点」を識別することはできません。新たなモデルでは、人工知能は「人間が実際に取った行動」を観察し、「現在のトレーニング内容で行うであろう行動」との違いを比較し、判断の「方針」を生み出します。
情報提供の形は「デモンストレーション」と「修正」があります。
たとえば、自動運転システムのトレーニングが不十分で「大型の白い車」と「救急車」の識別ができない場合、真後ろに救急車がやってきても進路を譲らない可能性があります。人間のドライバーが実際にこの状況に出会うと、サイレンや赤色灯で救急車を識別すると進路を譲ります。このデモンストレーション動作を人工知能は観察し、自らが取ったであろう行動との「不一致」を確認します。
by Benjamin Voros
また、特定の目的地に向かっているときに、運転席に乗り込んだ人間はルートが問題なければ手を出しませんが、間違った道を走りそうになると自らハンドルを握ってルートを修正します。ここでも、人工知能と人間の行動に「不一致」が起きます。
こうしたフィードバックの情報を集積した上で、システムはそれぞれ不一致だった行動が許容できるものかどうか、複数のラベリングを実施し、取るべき行動が何であるかを学んでいき、それまで「盲点」となっていた部分が埋まっていきます。前述の「救急車」への対応の場合、10回中9回道を譲れば「救急車が来たら道を譲るのが安全な動きである」とラベリングが行われます。
ただし、「人工知能が受け入れがたい行動」に属するものは極めて稀なので、この形だけで学習を行うと、多くの動きが「許容可能」となってしまいます。研究者のRamya Ramakrishnan氏も危険性は認識していて、そうならないよう、Dawid-Skeneアルゴリズムを用いて、「許容可能」「許容不可能」のラベルが付けられたデータを集め、それぞれの状況の信頼水準に応じて「安全」「盲点」のラベルを出力しました。これにより、「許容可能」が実行された割合が90%であっても、なおも状況があいまいな「盲点」である可能性を残しました。
この学習モデルにより、人工知能はより慎重かつ知的に行動することが期待されています。Ramakrishnan氏によれば、高い確率で「盲点」であると予測される状況であれば、システムが人間に対して許容可能な行動を問い合わせることで、より安全な行動が取れるようになるとのことです。
・関連記事
自動運転車技術はまず「長距離トラック」の分野で実現される可能性、その理由とメリットとは? - GIGAZINE
数台の自動運転車が道路上に混ざるだけで交通渋滞が減るという研究 - GIGAZINE
人工知能(AI)がスタンフォード大学の読書テストで人間を凌駕するスコアをマーク - GIGAZINE
人工知能が「桃太郎」を読むとどんな世界を想像するのかがわかるムービー - GIGAZINE
人工知能の第一人者が語る「人工知能が持つ可能性と危険性」とは? - GIGAZINE
・関連コンテンツ