ソフトウェア

Apple・NVIDIA・AnthropicなどがYouTubeの動画字幕を許可なくAIのトレーニングに利用していたと判明


IT系メディアのProof Newsが、AppleやAnthrpic、NVIDIAなどがYouTubeに公開されている17万本以上の動画の字幕をAIの学習に許可なく使用していたと指摘しています。

Apple, Nvidia, Anthropic Used Thousands of Swiped YouTube Videos to Train AI
https://www.proofnews.org/apple-nvidia-anthropic-used-thousands-of-swiped-youtube-videos-to-train-ai/


YouTube creators surprised to find Apple and others trained AI on their videos | Ars Technica
https://arstechnica.com/ai/2024/07/apple-was-among-the-companies-that-trained-its-ai-on-youtube-videos/


Proof NewsはAIのトレーニングデータに関する詳細な調査を行っており、その中でも特に、非営利のAI研究団体であるEleutherAIが作成した「The Pile」と呼ばれるデータセットに注目しました。このデータセットには欧州議会や英語版Wikipedia、捜査の一環で公開されたエンロンの従業員による大量のメール、そしてYouTubeの動画字幕をまとめた「YouTube Subtitles」などのデータが含まれていたとのこと。

このYouTube Subtitlesは、4万8000以上のチャンネルが公開している動画17万3536本の字幕から、のべ4億8900万語がまとめられたもので、サイズは合計5.7GBに及ぶとのこと。対象となっているチャンネルにはMrBeastやPewDiePieなどの超大手YouTuberのもの、さらには地球平面説などの陰謀論を喧伝するチャンネルも含まれていたそうです。


Proof Newsは各種AI企業の研究論文や公開情報を調査し、AppleやAnthropic、NVIDIA、Salesforce、Bloomberg、Databricksなどの企業が自社のAIをトレーニングするためにThe Pileを使用していたと指摘しています。

YouTubeには膨大な動画がアップロードされているため、AIのトレーニングに使われたというケースがよくあります。2024年4月には、OpenAIが100万時間を超える分量の動画をYouTubeからダウンロードし、AIのトレーニングに利用していたことが報じられています。

100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明 - GIGAZINE


しかし、YouTubeのニール・モーハンCEOは「もしYouTubeの動画を用いてトレーニングしたのであればルール違反にあたる」という見解を示しました。

YouTubeのCEOが「AIのトレーニングへの利用はルール違反」「大事なのはクリエイターがYouTubeで成功すること」と語る - GIGAZINE


Googleの広報担当者であるジャック・マロン氏はProof Newsの取材に対し、「私たちは長年にわたり、無許可のスクレイピングを防止するための措置を講じてきました」と述べましたが、他社がYouTubeの動画字幕をトレーニングデータとして使用していることについてはコメントしませんでした。

Anthropicの広報担当者であるジェニファー・マルティネス氏は「The PileにはYouTubeの字幕のごく一部が含まれています」と語り、YouTubeの字幕データをトレーニングに利用したことを認めました。ただし、「YouTubeの規約は、そのプラットフォームの直接使用を対象としており、The Pileの使用は対象外です。YouTubeの利用規約に違反する可能性があるという指摘があれば、それはThe Pileの製作者に問い合わせる必要があります」と述べています。


SalesforceのAI研究担当バイスプレジデントであるケイミン・シィオン氏は「The Pileを学術および研究目的で、AIモデルの構築に使用しました。このThe Pileは公開されているデータセットです」と述べました。

なお、NVIDIAの担当者はProof Newsの質問に対し、コメントを控えたとのこと。また、Apple・Bloomberg・Databricksの担当者はコメント要請に応じなかったそうです。

◆つづき
AI学習にYouTubeの字幕を使用したとの報道にAppleが「Apple Intelligence」を含む製品版AIには使っていないと反論 - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
作品を無断でAIトレーニングに使うことを違法化する「COPIED法」が議会へ提出される - GIGAZINE

「GitHub Copilotがコードを違法にコピーしている」と主張する開発者による訴訟の大部分を裁判所が棄却 - GIGAZINE

「AIのトレーニングにかかるコストはわずか3年で1000億ドルに上昇するかもしれない」とAnthropicのCEOが予想 - GIGAZINE

国家データ保護機関がMetaに「ユーザーデータを勝手にAIトレーニングに使うのを即刻停止せよ」と命じる - GIGAZINE

MicrosoftのAI責任者が「オープンウェブ上のコンテンツはフリーウェア」と発言、AIトレーニングにウェブ上のコンテンツを利用しても問題ないという考えを強調 - GIGAZINE

AmazonはGitHubをスクレイピングしてAIモデルをトレーニングするグレーな方法を採用していることが明らかに - GIGAZINE

in ソフトウェア,   ネットサービス, Posted by log1i_yk

You can read the machine translated English article here.