Anthropicによるサイトのスクレイピングを防ぐrobots.txtの内容がすでに古くなっているという指摘、クローラーは24時間で100万アクセスしている事例も
生成AIの流行により、ネット上にコンテンツを公開している企業や組織が、トレーニングデータとして使われないように対策を行う事例が出てきています。対策の1つはサイトのクローラーに対してアクセスを許すページとアクセスを許さないページを示す「robots.txt」を用いた方法ですが、実態として、Anthropicのクローラーを防ぐための内容はすでに使われていないクローラーの名前になっていて、使用中のクローラーは防げていない状況になっているそうです。
Websites are Blocking the Wrong AI Scrapers (Because AI Companies Keep Making New Ones)
https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/
Anthropic is scraping websites so fast it’s causing problems – Pivot to AI
https://pivot-to-ai.com/2024/07/29/anthropic-is-scraping-websites-so-fast-its-causing-problems/
ニュースサイトの404mediaは、通信社のロイターや、ファッション誌「VOGUE」「GQ」などを展開するCondé Nastなどが、AI企業・Anthropicのクローラーである「ANTHROPIC-AI」および「CLAUDE-WEB」をrobots.txtで防いでいるものの、この2つはすでにアクティブではなく、役に立っていないと指摘しています。
404mediaによれば、Anthropicのアクティブなクローラーは「CLAUDEBOT」で、ロイターなどの用いているrobots.txtではブロックされていないとのこと。同様のrobots.txtやブロックリストを用いているサイトも、防衛策が機能していないことになります。
スマートフォンやノートPCなどの修理マニュアルを公開しているiFixitのカイル・ウィーンズCEOは、AnthropicがiFixitに対して24時間以内に100万回ものアクセスを行ってきたことを指摘。
Hey @AnthropicAI: I get you're hungry for data. Claude is really smart! But do you really need to hit our servers a million times in 24 hours?
— Kyle Wiens (@kwiens) July 24, 2024
You're not only taking our content without paying, you're tying up our devops resources. Not cool.
また、リクエストのいずれかがサービス利用規約へのアクセスであれば、コンテンツの利用が明示的に禁止されていることがわかったはずだとして「(AnthropicのAIである)Claudeに聞いてください」と述べ、もしコンテンツの商用利用で相談があるならこちらまで、と呼びかけました。
If any of those requests accessed our terms of service, they would have told you that use of our content expressly forbidden. But don't ask me, ask Claude!
— Kyle Wiens (@kwiens) July 24, 2024
If you want to have a conversation about licensing our content for commercial use, we're right here. pic.twitter.com/CAkOQDnLjD
なお、Anthropicのダリオ・アモデイCEOは、AIのトレーニングコストが2025年から2027年の3年間で最大1000億ドル(約16兆円)にまで増加する可能性を述べていました。
「AIのトレーニングにかかるコストはわずか3年で1000億ドルに上昇するかもしれない」とAnthropicのCEOが予想 - GIGAZINE
・関連記事
「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張 - GIGAZINE
生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している - GIGAZINE
予約サイトが正規サイトをスクレイピングして再販した行為に違法認定、ライアンエアーがBooking.comに勝訴 - GIGAZINE
Apple・NVIDIA・AnthropicなどがYouTubeの動画字幕を許可なくAIのトレーニングに利用していたと判明 - GIGAZINE
Runwayの動画生成AIは写真系YouTuberの動画をスクレイピングしてトレーニングされたものと指摘される - GIGAZINE
・関連コンテンツ
in メモ, Posted by logc_nt
You can read the machine translated English article It has been pointed out that the robots.….