27TB以上の研究用データセットをBitTorrentで共有する「Academic Torrents」
by Patrick Tomasso
「Academic Torrents」は研究者間でのデータセット共有を促進すること、およびオープンアクセスの論文を低コストで運用する仕組みの構築を目的として作られました。2018年8月現在、利用可能なデータは27.23TB。コミュニティにとって重要であると思うデータセットをアップロードすることも可能です。
Academic Torrents
http://academictorrents.com/
実際にどんなデータセットが公開されているのか見るには、トップページにある「View popular!」ボタンをクリック。
すると、公開中のデータセットとファイル数、追加日、ファイルサイズ、ダウンロード数などが表示されます。
公開されているデータセットの中には大学公式サイトや研究所のサイトなど、他で公開されているものも含まれていますが、Academic Torrentsでは単一サーバーでファイルを保持しているわけではないので、高速にダウンロードできる点が特徴。特に、データセットはファイルサイズが数GB単位になることも珍しくないため、ホスティング場所を確保できない場合にも有用です。一次ソース以外の場所からデータセットを入手した場合、データの正確性と信頼性に問題が生じますが、BitTorrentを用いることで、透明性を確保したままミラーリングできているという点もメリットです。
・関連記事
Googleが「Cloud AutoML Vision」を発表、独自のデータセットを使ったカスタム機械学習モデルが簡単に構築できるように - GIGAZINE
史上最大規模の動画データセット「YouTube-8M」公開 - GIGAZINE
「バッハっぽさとは何か?」をAIに理解させることを可能にする330曲・100万音分のデータセットが公開される - GIGAZINE
Facebookユーザー300万人の個人属性を分析可能なデータセットが4年間も誰でもアクセスできる状態だったことが判明 - GIGAZINE
・関連コンテンツ