ネットサービス

RedditがGoogle以外のAIがコンテンツをトレーニングに利用することを防ぐための施策を強いられているとしてMicrosoft・Anthropic・Perplexityを名指しで批判、「面倒なので本当はやりたくない」と発言


RedditがGoogle以外の検索エンジンによるコンテンツの取得をブロックしている件で、Redditのスティーヴ・ハフマンCEOが「MicrosoftやAnthropic、Perplexityをブロックするのは面倒なので本当はやりたくない」と語り、交渉が合意に至らなかったことを明らかにしました。

Reddit CEO says Microsoft needs to pay to search the site - The Verge
https://www.theverge.com/2024/7/31/24210565/reddit-microsoft-anthropic-perplexity-pay-ai-search


Blocking AI bots from Microsoft, others has been “pain in the a**”: Reddit CEO | Ars Technica
https://arstechnica.com/gadgets/2024/07/reddit-ceo-stands-by-change-that-blocks-most-non-google-search-engines/

AI開発企業は自社AIのトレーニングに使用するデータを収集するためにインターネット上でクローラーを利用しています。Redditは2024年2月、Googleとの間で自社コンテンツをAIのトレーニングに利用することを許可するライセンス契約を結びました。契約は年間6000万ドル(約90億円)規模とも言われています。

GoogleがRedditの投稿内容をAPIでリアルタイム取得してAIのトレーニングに活用へ、Redditは新規株式公開目前 - GIGAZINE


契約の影響を受ける形で、2024年7月下旬から、Google以外の検索エンジンによるRedditの内容の取得をブロックしています。

RedditがGoogle以外の検索エンジンによるコンテンツの取得をブロックしているという指摘 - GIGAZINE


この件についてニュースサイト・The Vergeの取材を受けたハフマンCEOは「契約がなければ、我々はデータがどのように表示され、何に使用されるかについて、いかなる知見も発言権も得られません。そのため、データがどのように使用されるか、あるいは使用されないようにするかについて合意しない人々をブロックする立場を取っています」と述べました。

ハフマンCEOは「ブロックするのは本当に面倒くさい作業なのです」と、ハフマンCEOは「ブロックするのは本当に面倒くさい作業なのです」と述べ、具体的に検索エンジンのBingを運営するMicrosoftと、AI企業のAnthropic、Perplexityの3社を名指しで批判しています。


ハフマンCEOによれば、MicrosoftはRedditのデータを用いてAIをトレーニングし、Bingの検索結果にRedditの要約をひそかに表示していたとのこと。また、データはBing APIを通じて、他の検索エンジンに販売されていたそうです。

Microsoftのムスタファ・スレイマンCEOは、過去に「オープンウェブ上のコンテンツはフリーウェア」という考え方を語ったことがあります。

MicrosoftのAI責任者が「オープンウェブ上のコンテンツはフリーウェア」と発言、AIトレーニングにウェブ上のコンテンツを利用しても問題ないという考えを強調 - GIGAZINE


なお、Anthropicの広報を担当するジェニファー・マルティネス氏は「Redditは2024年5月中旬からウェブクロールのブロックリストに入っていて、それ以降、RedditのURLはクローラーに追加していません。私たちは、ウェブ業界がクローリングをブロックする意思を示すためのrobots.txtを尊重します」とのコメントを発表しています。

この記事のタイトルとURLをコピーする

・関連記事
Anthropicによるサイトのスクレイピングを防ぐrobots.txtの内容がすでに古くなっているという指摘、クローラーは24時間で100万アクセスしている事例も - GIGAZINE

RedditがGoogle以外の検索エンジンによるコンテンツの取得をブロックしているという指摘 - GIGAZINE

AIを開発するために必要なデータが急速に枯渇、たった1年で高品質データの4分の1が使用不可に - GIGAZINE

in ネットサービス, Posted by logc_nt

You can read the machine translated English article here.