Cloudflareが学習用データを収集するAIボットを一括でブロックする機能をリリース
生成AIの人気により、モデルのトレーニングや推論に使用されるコンテンツの需要が急増しており、一部のAI企業はウェブスクレイピング用のボットでデータを収集しています。コンテンツデリバリネットワーク(CDN)のCloudflareが、AI学習用にウェブスクレイピングを行うボットを一括でブロックする機能を導入したと発表しました。
Declare your AIndependence: block AI bots, scrapers and crawlers with a single click
https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click
AIの学習に用いられるデータセットを用意するためには、膨大な量のデータが必要となります。そこで、一部のAI企業は学習用のデータを収集するAIボットを走らせ、ウェブスクレイピングによってインターネット上から画像や写真を収集しています。
例えば、AI検索エンジンのPerplexityがウェブサイトのrobots.txtを無視し、ボットの巡回を禁止したウェブサイトでもウェブスクレイピングを行っていたことは大きな話題となりました。
生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している - GIGAZINE
以下はCloudflareが2023年から2024年にかけて観測したAIボットからの1日当たりのリクエスト数(縦軸)をまとめたグラフ。2023年末辺りからAIボットのリクエスト数が急増していることがわかります。Cloudflareによると、特にリクエスト数が多いAIボットの上位4つは、TikTok運営のByteDanceによる「Bytespider」、AmazonによるAmazonbot、AnthropicによるClaudeBot、OpenAIのGPTBotだったそうです。
以下のグラフは、上位10000件のインターネットドメインのrobots.txtを分析した上で、AIボット(横軸)ごとにアクセスを禁止しているドメインの数(縦軸)をまとめたもの。これをみると、GPTBotは最も禁止されているケースが多かったものの、同様にリクエスト数の多かったBytespiderやClaudeBotはほとんど禁止されていないことがわかります。
Cloudflareは、robots.txtに適切に従うAIボットをブロックできる機能を2023年9月に導入していました。しかし、たとえrobots.txtでAIボットを禁止していても、ユーザーエージェントを偽装されてしまうと突破されてしまいます。
そこで、今回新たに発表されたのが、robots.txtに準拠するかしないかに関わらず、すべてのAIボットをワンクリックでブロックする機能です。
CloudflareはAIボットのトラフィックを分析し、AIボット検出を調整。広範囲にウェブスクレイピングしていると特定された不正なAIボットの新しい痕跡が見つかるたびに、AIボットブロック機能は自動的に更新されていくとのこと。また、AIボットであると疑われる痕跡が見つかった場合にCloudflareへ通報するフォームも設置されました。
Cloudflareは「顧客はAIボットが自社のウェブサイトを訪問することを望んでいません。特に不正行為を行うボットは望んでいません。コンテンツにアクセスするためにルールを回避しようとする一部のAI企業が、ボット検出を回避するために執拗に適応していくのではないかと懸念しています」と述べています。
・関連記事
OpenAIとMicrosoftが「中国・ロシア・北朝鮮・イランのハッカーがAIを使ってハッキングしていた」と報告 - GIGAZINE
画像生成AIユーザーがAI学習用データセットから「自分の医療記録の写真」を発見してしまう - GIGAZINE
Cloudflareは乱数生成のリスクヘッジとしてオフィスにラバライトや二重振り子を置いている - GIGAZINE
マルウェア混入が発覚したJavaScriptライブラリ「Polyfill.io」のドメインを登録事業者が停止 - GIGAZINE
Cloudflareが「24時間以内に1800万円の支払いに応じなければサイトを閉鎖する」とユーザーに通知後、実際に全ての設定を削除してしまう - GIGAZINE
Cloudflareがデータセンターで大規模な停電が発生したことを報告、フェイルオーバーが機能してサービスへの影響はほぼ無し - GIGAZINE
・関連コンテンツ