2020年01月24日 06時00分メモ

Googleが主催する機械学習のコンテストで勝利したチームが競技の課題をハックしていたことが判明

by Kevin Ku

Googleの子会社であるKaggleは、投稿されたデータに対していかに優れた最適モデルを構築するかを、世界中のエンジニアやデータサイエンティストが競うプラットフォームを提供しています。そのKaggleで行われたとあるコンテストで、優勝チームが不正なモデルを構築して賞金を獲得していたことが判明しました。

PetFinder.my Contest: 1st Place Winner Disqualified | Kaggle
https://www.kaggle.com/c/petfinder-adoption-prediction/discussion/125436

How a Kaggle Grandmaster cheated in $25,000 AI contest with hidden code – and was fired from dream SV job • The Register
https://www.theregister.co.uk/2020/01/21/ai_kaggle_contest_cheat/

今回不正が行われたコンテストでは、身寄りのない動物たちの情報をリストアップしているPetFinder.myがデータを提供。「品種や性別、年齢といった動物の情報が入ったデータベースをもとに機械学習を行い、動物の飼い主が見つかるのにどれくらいかかるかを予測するモデルを構築する」ことが課題でした。コンテストには2000ものチームが参加し、優勝チームには賞金として1万ドル(約110万円)が用意されていました。

by Adam Griffith

各チームが提出した機械学習システムを検証した結果、Kaggleの上位ランカーであるPavel Pleskov氏がリーダーを務めるチームが2位のチームに大差をつけて優勝。賞金の1万ドルを受け取りました。

異変に気づいたのは同じコンテストに参加したエンジニアでした。1位を獲得したPleskov氏のシステムを他のモデルでも試そうとしたところ、性能がかなり落ちてしまったとのこと。ソースコードを詳しく確認すると、Pleskov氏のシステムが抜け穴を利用していることがわかりました。

今回のコンテストでシステムの検証に使用されたデータは、PetFinder.myが公開していた事実に基づくデータであり、実際に飼い主が見つかるまでの期間も知ることができました。Pleskov氏はそこに目をつけ、あらかじめPetFinder.myに公開されている画像データをハッシュ化し、飼い主が見つかるまでにかかった期間と紐付けしてデータベースを構築。検証時に入力された画像データのハッシュと、あらかじめ用意しておいたハッシュが一致した場合は、紐付けておいた期間を返すというシステムを作りました。Pleskov氏のシステムはデータをもとに予測するのではなく、まさに「事実」を検索していたため、非常に優れた成績を収めることができたというわけです。

by kenishirotie

この不正の報告を受け、KaggleはPleskov氏のアカウントを永久に凍結。さらにPleskov氏の勤務先であるH2O.aiもPleskov氏を解雇処分としました。

Pleskov氏はTwitter上で今回の不正を謝罪し、賞金の1万ドルは返金すると述べています。

1. We, as a team, would like to apologize to @myPetFinder @kaggle and the DS community for all the wrongdoings. I would also like to apologize to @h2oai and all the Kaggle competitors for putting their reputation at risk.
— Pavel Pleskov (@ppleskov) January 11, 2020