Yahoo!が年齢・性別・居住地域など13TB超の巨大データを機械学習用に無償提供開始

By Bob Mical

人工知能を実現する技術の1つである機械学習は、数多くのデータを解析することで一定の規則やパターンを抽出してアルゴリズムの生成を行います。その学習段階で与えられるデータは数が多いほど学習の精度が高まるとも言えるわけですが、個人はもちろん、研究機関においても質と量をクリアするデータを確保することは難しいもの。そんな機械学習に活用できる巨大データセットの提供開始をアメリカのYahoo!が発表したのですが、そのデータは1000億件を超えるという超巨大なものになっているようです。

Yahoo Releases the Largest-ever Machine Learning... | Yahoo Labs
http://yahoolabs.tumblr.com/post/137281912191/yahoo-releases-the-largest-ever-machine-learning

多くのトラフィックを集め、一般消費者に近いサービスを提供しているYahooでは、これまで自社サイト内でのユーザーの行動(ユーザーインタラクション)をデータ化することで、傘下のYahoo Labsが行っている機械学習の問題解決に大きく役立ててきているとのこと。そんなYahoo Labsは、これまでほとんど外部に解放されることがなかった貴重なデータを公開することを発表しました。

公開されるデータは2015年2月から2015年3月にかけて取得されたデータで、Yahooニュースのページに表示されるニュースフィードに対しておよそ2000万人のユーザーが取った行動を記録したものになっているとのこと。データ件数はおよそ1100億件にも上り、データ容量は圧縮前の状態で13.5TB(テラバイト)、圧縮後でも1.5TBというとてつもない容量となっています。なお、データはもちろん匿名化の処理が行われています。


公開されるデータには、ユーザーの行動データに加え、年齢層や性別、おおまかな地理的データがサブセットとして含まれているとのこと。また、各アイテムの要素としてニュースの記事タイトル、概要、キーフレーズが含まれており、分析に役立てられるようになっています。ユーザーインタラクションのデータは、行動が起こされた時刻や、どのような端末からのアクセスが行われたのかといった内容が含まれています。

Yahooはこの決定の目的について、大規模での機械学習・レコメンデーションシステム(おすすめシステム)の分野における独立した研究を促進させることと、産業界と学術機関の間にある研究レベルのギャップを埋めることを挙げています。Yahoo Labsのパーソナライゼーション・サイエンスチームはこれまで、これらの巨大なデータを活用することで、行動モデリング、おすすめ機能システム、大規模な分散型機械学習、ランキング機能、オンラインアルゴリズム、コンテンツモデリング、タイムシリーズ・マイニング(時系列マイニング)などの研究を進めてきたとのこと。

Yahoo Labsが公開したデータは以下のページからダウンロードすることが可能になっていますが、アメリカ版Yahoo! IDが必要になっているようです。

Webscope | Yahoo Labs

・関連記事
人工知能・データサイエンス・暗号化などMicrosoftの研究者が予測する16の未来とは? - GIGAZINE

実写映像を人工知能「ディープラーニング」でゴッホや葛飾北斎っぽく変換した「the four painters」 - GIGAZINE

画像から人間の感情を読み取って数値化してくれるMicrosoft公式ツールが登場 - GIGAZINE

自動運転カーを実現する開発ユニット「NVIDIA Drive PX 2」によるディープラーニングのデモはこんな感じ - GIGAZINE

写真の情報を認識して音声でどんな写真か説明する人工知能をFacebookが発表 - GIGAZINE

機械学習で返信メールを自動生成する機能をGoogleのメールアプリ「Inbox」が実装予定 - GIGAZINE

Google検索の精度を激変させる可能性を秘める人工知能技術「RankBrain」 - GIGAZINE

Facebookが人工知能研究用の高性能オープンソースハードウェア「Big Sur」をリリース - GIGAZINE

Googleが製品開発で活用する機械学習システム「TensorFlow」を商用利用OKでオープンソース化 - GIGAZINE

in サイエンス, Posted by logx_tm