NVIDIAが海賊版サイト「Anna’s Archive」から500TBのデータ提供を受ける約束をしていたことが判明

NVIDIAをめぐる集団訴訟で示された裁判資料により、NVIDIAがAIのトレーニングを加速させるために、海賊版サイトで「人類史上最大規模のシャドウライブラリ」を自称するAnna's Archiveと協力体制を取っていたことが明らかになりました。
'NVIDIA Contacted Anna’s Archive to Secure Access to Millions of Pirated Books' * TorrentFreak
https://torrentfreak.com/nvidia-contacted-annas-archive-to-secure-access-to-millions-of-pirated-books/

NVIDIAは海賊版サイト「Bibliotik」から取得された海賊版書籍を含むデータセット「Book3」でAIのトレーニングを行っていたとして、2024年に複数の書籍の著者から集団訴訟を起こされています。
NVIDIAは「書籍はAIモデルにとって確率的相関関係にすぎず、フェアユースである」と主張しましたが、原告側は修正訴状を提出し、「シャドウライブラリ」に関する申し立てを追加しました。
修正訴状で、原告は「競争のプレッシャーからNVIDIAは著作権侵害に走った」と述べ、NVIDIAのデータ戦略チームのメンバーがAnna's Archiveに接触していたことを指摘しています。
修正訴状によれば、Anna's ArchiveはNVIDIAから事前トレーニングでデータを利用することについて相談を受け、高速アクセスなら数万ドル(数百万円)が必要だと要求したとのこと。
NVIDIAがさらに接触を続けると、Anna's Archiveは書籍が違法に取得・管理しているものであると警告した上で、NVIDIAの幹部に対して話を進める社内許可を取っているかを確認。NVIDIAの幹部は警告を受けたあと、つまり海賊版書籍であることを理解しながら許可を出し、Anna's Archiveからアクセスを提供してもらったそうです。
なお、Anna's Archiveは500TB相当のデータへのアクセス提供を約束したとのことですが、NVIDIAがアクセスに対して対価を支払ったかどうかは訴状では言及されていません。
原告によると、NVIDIAはデータをトレーニングに使用するにとどまらず、顧客がBook3の海賊版書籍データを含む「The Pile」と呼ばれるデータセットを自動的にダウンロードできるようにスクリプトやツールを配布していたとのことです。
著作権侵害の話題に詳しいニュースサイト・TorrentFreakは、大手テック企業とAnna's Archiveとのやり取りが公になったのは初の事例であり、これによってAnna's Archiveの知名度がさらに高まることになると見解を述べています。
・関連記事
海賊版サイト「Anna's Archive」が.orgドメインを剥奪される - GIGAZINE
Spotifyから2億5600万曲分のデータが抜き取られ海賊版サイト「Anna's Archive」でメタデータが全公開されてしまう、約300TBに及ぶ音楽ファイルも公開予定 - GIGAZINE
海賊版検索エンジン「Anna's Archive」のチームがミッションへの攻撃を受けているが健在だと報告 - GIGAZINE
論文の海賊版ライブラリ「Anna's Archive」の収録文献データをAIに入力できるMCPサーバー「Anna's Archive MCP Server」 - GIGAZINE
Metaが海賊版コンテンツを含む81.7TB分のデータでAIをトレーニングしていたことが明らかに - GIGAZINE
海賊版電子書籍ライブラリ「Z-Library」「Anna's Archive」のアカウントをTelegramが停止 - GIGAZINE
海賊版検索エンジン「Anna's Archive」が世界最大の図書館カタログからデータを取得、「世界中のすべての書籍の保存を目指す」姿勢 - GIGAZINE
世界最大級の海賊版電子書籍サイトへの法的措置に対抗して誕生した海賊版サーチエンジン「Anna's Archive」とは? - GIGAZINE
・関連コンテンツ
You can read the machine translated English article It turns out that NVIDIA promised to rec….







