ソフトウェア

Metaの大規模言語モデル「LLaMA」のトレーニングにも使用されたAIの学習用データセット「Books3」が削除される


デンマークの著作権侵害対策グループ「Rights Alliance」が、約20万冊にも上る書籍のデータセット「Books3」を削除するよう、ホストする「The Eye」に対して要請し、データセットの削除が行われました。Books3はMetaの開発する大規模言語モデル「LLaMA」のトレーニングにも使用されたデータセットです。

Anti-Piracy Group Takes Prominent AI Training Dataset ''Books3' Offline * TorrentFreak
https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/


Revealed: The Authors Whose Pirated Books Are Powering Generative AI - The Atlantic
https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/

Massive Books3 collection for training AI was taken down over copyright issues | Mashable
https://mashable.com/article/books3-ai-training-dmca-takedown

Anti-Piracy Group Takes AI Training Dataset 'Books3′ Offline
https://gizmodo.com/anti-piracy-group-takes-ai-training-dataset-books3-off-1850743763

非営利のAI研究グループ「EleutherAI」が提供するオープンソースのAIトレーニング用データセット「The Pile」の一部としてリリースされたBooks3は、AIモデルのトレーニング用に約19万6640冊、約37GBもの書籍のデータが含まれていました。

Books3はAI開発者のショーン・プレッサー氏によって2020年にアップロードされ、その後、大規模リポジトリのThe Eyeによってホストされてきました。プレッサー氏は「誰でもChatGPTに匹敵するAIモデルを作成できるようになることがBooks3の開発目標でした」と報告。また「ChatGPTが何らかの理由でオフラインになった場合や、訴訟に直面した場合に備えて、独自のChatGPT風のAIモデルを作成できることが重要です」と述べています。


Books3はMetaの大規模言語モデルLLaMAやBloombergGPTのトレーニングにも使用されており、Metaの研究者はBooks3について「大規模言語モデルをトレーニングするための公開データセットです」と(PDFファイル)説明していました。


The Eyeは「すべてのデータセットはデジタルミレニアム著作権法に準拠しています」と主張していますが、知的財産権や著作権に対する侵害の疑いが指摘されていました。

AIに対する著作権侵害の懸念が高まる中で、Rights AllianceはThe Eyeに対して、デジタルミレニアム著作権法侵害に基づくBooks3の削除要請を行いました。Rights Allianceのディレクターを務めるマリア・フレデンスルンド氏は「AIが著作権侵害された違法なコンテンツを用いて訓練されるのを防ぐことは非常に重要です」と述べ「私たちにはBooks3のような違法なAIトレーニング用データセットを検出して削除するだけでなく、違法なコンテンツを用いてトレーニングされ、現在インターネット上で広まっているAIに対処するという大きな課題があります」と報告しています。


Rights Allianceによる削除要請を受けて、The EyeはBooks3のデータセットを削除。記事作成時点でBooks3にアクセスすると、404エラーが表示されます。

一方で、The Eyeが公開していたBooks3のダウンロードリンクはオフラインにされたものの、データセットはインターネット上から完全に削除されたわけではないことが指摘されています。海外メディアのTorrentFreakは「ファイルはまだインターネットアーカイブのウェイバックマシンでバックアップされており、代替のダウンロードリンクも共有されています」と報告しています。また、「従来の海賊版の本や映画と同様、一度出回ってしまうと削除することは非常に困難です」と語っています。


Rights AllianceはThe Eyeに対するBooks3の削除要請に加えて、Metaに対してBooks3についての対応を求めています。テクノロジー系ニュースメディアのGizmodoは「Metaが著作権侵害の懸念を解消するためにLLaMAを再トレーニングする可能性は低いでしょう」と述べています。フレデンスルンド氏は「AIの開発者や開発企業は、AIモデルを作成するために使用されたトレーニングデータなどの詳細を必ず共有する枠組みなどが必要です」と語っています。

この記事のタイトルとURLをコピーする

・関連記事
Metaが大規模言語モデル「LLaMA」を発表、GPT-3に匹敵する性能ながら単体のGPUでも動作可能 - GIGAZINE

独自の金融ビジネス特化型AI「BloombergGPT」をBloombergが発表、金融アナリストの業務や金融ニュースの作成を手助け可能 - GIGAZINE

8500人超の作家が「AIのトレーニングに人間の作品を無断使用するな」とOpenAIやMetaなどのAI開発企業に求める公開書簡に署名 - GIGAZINE

OpenAIが将来のAIモデルの改善に向けたウェブクローラー「GPTBot」を発表、同時にAIによる無断での学習を防ぐためのブロック方法も公開 - GIGAZINE

最大26億円超えの罰金を科すAI規制法の内容とは? - GIGAZINE

画像生成AI「Stable Diffusion」と「Midjourney」に対して集団訴訟が提起される - GIGAZINE

in ソフトウェア, Posted by log1r_ut

You can read the machine translated English article here.