2016年01月15日 11時33分サイエンス

Yahoo！が年齢・性別・居住地域など13TB超の巨大データを機械学習用に無償提供開始

By Bob Mical

人工知能を実現する技術の1つである機械学習は、数多くのデータを解析することで一定の規則やパターンを抽出してアルゴリズムの生成を行います。その学習段階で与えられるデータは数が多いほど学習の精度が高まるとも言えるわけですが、個人はもちろん、研究機関においても質と量をクリアするデータを確保することは難しいもの。そんな機械学習に活用できる巨大データセットの提供開始をアメリカのYahoo！が発表したのですが、そのデータは1000億件を超えるという超巨大なものになっているようです。

Yahoo Releases the Largest-ever Machine Learning... | Yahoo Labs
http://yahoolabs.tumblr.com/post/137281912191/yahoo-releases-the-largest-ever-machine-learning

多くのトラフィックを集め、一般消費者に近いサービスを提供しているYahooでは、これまで自社サイト内でのユーザーの行動(ユーザーインタラクション)をデータ化することで、傘下のYahoo Labsが行っている機械学習の問題解決に大きく役立ててきているとのこと。そんなYahoo Labsは、これまでほとんど外部に解放されることがなかった貴重なデータを公開することを発表しました。

公開されるデータは2015年2月から2015年3月にかけて取得されたデータで、Yahooニュースのページに表示されるニュースフィードに対しておよそ2000万人のユーザーが取った行動を記録したものになっているとのこと。データ件数はおよそ1100億件にも上り、データ容量は圧縮前の状態で13.5TB(テラバイト)、圧縮後でも1.5TBというとてつもない容量となっています。なお、データはもちろん匿名化の処理が行われています。

公開されるデータには、ユーザーの行動データに加え、年齢層や性別、おおまかな地理的データがサブセットとして含まれているとのこと。また、各アイテムの要素としてニュースの記事タイトル、概要、キーフレーズが含まれており、分析に役立てられるようになっています。ユーザーインタラクションのデータは、行動が起こされた時刻や、どのような端末からのアクセスが行われたのかといった内容が含まれています。

Yahooはこの決定の目的について、大規模での機械学習・レコメンデーションシステム(おすすめシステム)の分野における独立した研究を促進させることと、産業界と学術機関の間にある研究レベルのギャップを埋めることを挙げています。Yahoo Labsのパーソナライゼーション・サイエンスチームはこれまで、これらの巨大なデータを活用することで、行動モデリング、おすすめ機能システム、大規模な分散型機械学習、ランキング機能、オンラインアルゴリズム、コンテンツモデリング、タイムシリーズ・マイニング(時系列マイニング)などの研究を進めてきたとのこと。

Yahoo Labsが公開したデータは以下のページからダウンロードすることが可能になっていますが、アメリカ版Yahoo！ IDが必要になっているようです。

Webscope | Yahoo Labs