メモ

Anthropicによるサイトのスクレイピングを防ぐrobots.txtの内容がすでに古くなっているという指摘、クローラーは24時間で100万アクセスしている事例も


生成AIの流行により、ネット上にコンテンツを公開している企業や組織が、トレーニングデータとして使われないように対策を行う事例が出てきています。対策の1つはサイトのクローラーに対してアクセスを許すページとアクセスを許さないページを示す「robots.txt」を用いた方法ですが、実態として、Anthropicのクローラーを防ぐための内容はすでに使われていないクローラーの名前になっていて、使用中のクローラーは防げていない状況になっているそうです。

Websites are Blocking the Wrong AI Scrapers (Because AI Companies Keep Making New Ones)
https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/


Anthropic is scraping websites so fast it’s causing problems – Pivot to AI
https://pivot-to-ai.com/2024/07/29/anthropic-is-scraping-websites-so-fast-its-causing-problems/

ニュースサイトの404mediaは、通信社のロイターや、ファッション誌「VOGUE」「GQ」などを展開するCondé Nastなどが、AI企業・Anthropicのクローラーである「ANTHROPIC-AI」および「CLAUDE-WEB」をrobots.txtで防いでいるものの、この2つはすでにアクティブではなく、役に立っていないと指摘しています。


404mediaによれば、Anthropicのアクティブなクローラーは「CLAUDEBOT」で、ロイターなどの用いているrobots.txtではブロックされていないとのこと。同様のrobots.txtやブロックリストを用いているサイトも、防衛策が機能していないことになります。

スマートフォンやノートPCなどの修理マニュアルを公開しているiFixitのカイル・ウィーンズCEOは、AnthropicがiFixitに対して24時間以内に100万回ものアクセスを行ってきたことを指摘。


また、リクエストのいずれかがサービス利用規約へのアクセスであれば、コンテンツの利用が明示的に禁止されていることがわかったはずだとして「(AnthropicのAIである)Claudeに聞いてください」と述べ、もしコンテンツの商用利用で相談があるならこちらまで、と呼びかけました。


なお、Anthropicのダリオ・アモデイCEOは、AIのトレーニングコストが2025年から2027年の3年間で最大1000億ドル(約16兆円)にまで増加する可能性を述べていました。

「AIのトレーニングにかかるコストはわずか3年で1000億ドルに上昇するかもしれない」とAnthropicのCEOが予想 - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張 - GIGAZINE

生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している - GIGAZINE

予約サイトが正規サイトをスクレイピングして再販した行為に違法認定、ライアンエアーがBooking.comに勝訴 - GIGAZINE

Apple・NVIDIA・AnthropicなどがYouTubeの動画字幕を許可なくAIのトレーニングに利用していたと判明 - GIGAZINE

Runwayの動画生成AIは写真系YouTuberの動画をスクレイピングしてトレーニングされたものと指摘される - GIGAZINE

in メモ, Posted by logc_nt

You can read the machine translated English article here.