OpenAIのクローラーボットが3Dスキャンデータ販売サイトをほぼDDoS攻撃な徹底スクレイピングでダウンさせていた
人間の全身や顔、手などを3Dスキャンしたデータの販売を行う「Triplegangers」というサイトが、OpenAIのクローラーボットによりダウンさせられていたことがわかりました。ボットは、販売されている数十万枚のデータについて、それぞれダウンロードを試みるリクエストを送信してきており、CEOは「実質的にDDoS攻撃のようなものだった」と説明しています。
How OpenAI's bot crushed this seven-person company's website ‘like a DDoS attack’ | TechCrunch
https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/
Triplegangersは10年以上にわたって3Dスキャンデータを販売しているサイトです。扱っているデータは「顔」「全身」「全身・ポーズ付き」「全身・カップル」「手」「全身・着衣」「手・彫像」「顔・彫像」といったカテゴリーに分かれています。
たとえば「顔」には記事作成時点で1509人のデータがあって、1人ごとに異なる表情が20枚前後登録されています。このほかのジャンルでも1つの製品につき少なくとも3枚の画像が登録されているので、データは合計で数十万点に上るとのこと。
High-Resolution Face Models, 21 FACS expressions each. | Triplegangers
https://triplegangers.com/browse/scans/faces
Triplegangersのオレクサンドル・トムチュクCEOがニュースサイト・TechCrunchに語った内容によると、「サイトがダウンしている」という警告が届いたため調査を行ったところ、OpenAIのボットがTriplegangersのサイト全体をスクレイピングしようと試み、数十万点の素材すべてをダウンロードしようとしてきてサイトが落ちたことがわかったそうです。
サイトのダウンがOpenAIのボットのせいであることはすぐにわかったものの、ボットは600の異なるIPを用いており、いったいいつからスクレイピングをし始めていたのかはまだ突き止めていないとのこと。
「OpenAIのクローラーは我々のサイトをぶっ壊しました。要するにDDoS攻撃だったのです」とトムチュクCEOは述べています。
なお、Triplegangersは利用規約のページに「事前承諾なしに、ボットや検索アプリ等によるインデックス作成やスクレイピング、データマイニング等の手法でデータを収集することを禁じる」旨を記載していましたが、クローラーボットに対してインデックス化やクロールの可否を伝えるrobots.txtにOpenAIのボットに対する適切な記載がなかったのではないかとTechCrunchは指摘しています。
OpenAIは大規模言語モデル改善のためのデータ収集用ウェブクローラー「GPTBot」を2023年8月に発表し、ブロック方法も公開しています。
OpenAIが将来のAIモデルの改善に向けたウェブクローラー「GPTBot」を発表、同時にAIによる無断での学習を防ぐためのブロック方法も公開 - GIGAZINE
一方で、TechCrunchは「OpenAIが使うボットにはChatGPT-UserとOAI-SearchBotもある」「robots.txtも絶対ではない」とも指摘しています。
たとえば、生成検索エンジンのPerplexityには「robots.txtを無視してクロールを行っていた」という指摘があります。この件についてPerplexityのアラヴィンド・スリニヴァスCEOは「自社クローラーが無視しているわけではないが、サードパーティークローラーも使っているため」と釈明しています。
「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張 - GIGAZINE
さらに、AI企業・Anthropicのクローラーを防ぐための記述が古くなっていて、24時間で100万回のアクセスをしてきたという事例も報告されています。
生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している - GIGAZINE
ちなみに、本件についてTechCrunchがOpenAIに問い合わせを行ったものの、返答はなかったとのことです。
・関連記事
Googleの検索結果により多くのページをより素早く反映させるための「クロールバジェット」を管理する方法 - GIGAZINE
世界最大の出版社のペンギン・ランダムハウスがAIに「ノー」を突きつける - GIGAZINE
RedditがGoogle以外の検索エンジンによるコンテンツの取得をブロックしているという指摘 - GIGAZINE
・関連コンテンツ