ソフトウェア

「執拗なAIスクレイピングがインフラストラクチャに負担をかけている」とWikimedia財団が発表


近年の生成AIの興隆により、モデルのトレーニングや推論に使用されるコンテンツの需要が急増しており、一部のAI企業は「クローラー」と呼ばれるウェブスクレイピング用のボットを使ってデータを収集しています。オンライン百科事典・Wikipediaを運営するWikimedia財団が、ウィキメディア・コモンズ上のコンテンツに対するトラフィックが近年指数関数的に増加していると報告しました。

How crawlers impact the operations of the Wikimedia projects – Diff
https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/


AI bots strain Wikimedia as bandwidth surges 50% - Ars Technica
https://arstechnica.com/information-technology/2025/04/ai-bots-strain-wikimedia-as-bandwidth-surges-50/

Wikimedia財団はWikipediaだけでなく、パブリックドメインの画像や動画、その他のファイルを保存するメディアファイルリポジトリのウィキメディア・コモンズも運営しており、保存されているコンテンツの数は約1億4400万点に上ります。


2024年1月以降、ウィキメディア・コモンズにおいてコンテンツのダウンロードに使用される帯域幅が50%増加していることが報告されています。Wikimedia財団によると、この急激な増加は人間のユーザーによるものではなく、主にウィキメディア・コモンズの画像カタログからオープンライセンスの画像をスクレイピングしてAIモデルにトレーニング用の画像を供給するボットによるものとのこと。

Wikimedia財団が保有するサーバーは、関心の高いイベント中に人間による突然のトラフィック急増が発生しても耐えるように構築されていますが、クローラーによるトラフィックの量は前例がなく、リスクとコストが増大しているそうです。

以下のグラフはウィキメディア・コモンズの帯域幅の推移を示したものです。2024年初頭から着実に帯域幅が増加しており、その勢いは衰えることがありません。このように、ベースラインの帯域幅が増加すると、大統領選挙やジミー・カーター元大統領の死去など、突発的なイベントに対応する余地が少なくなり、時間とリソースのかなりの部分が人間のユーザー以外のトラフィックへの対応に費やされてしまいます。


Wikimedia財団はデータセンターのグローバルネットワークを通じてユーザーにコンテンツを提供しています。Wikimedia財団では、コンテンツがリクエストを受けると、コアデータセンターから送信されたそのコンテンツはユーザーに最も近いデータセンターに記憶またはキャッシュされます。そのため、同じコンテンツが複数回リクエストされた場合、迅速かつシームレスな表示が可能です。一方で、コンテンツがしばらくリクエストされてない場合、そのコンテンツはコアデータセンターから地域のデータセンターを経由してユーザーに送信されることになります。

人間のユーザーは人気のある特定のトピックを多く閲覧しようとする傾向がありますが、クローラーは多くのページを一括読み取りし、人気のないページにもアクセスします。その結果、コアデータセンターから送信されるデータの量が増加し、リソースの消費の点でコストが増大します。Wikimedia財団によると、コアデータセンターに流れ込むトラフィックを分析すると、少なくとも65%がクローラーによるものだと判明したとのことです。

Wikimedia財団は「クローラーによるトラフィックの急増はサイト信頼性チームにとって絶え間ない混乱を引き起こしています。人間のユーザーが被害を被る前に、このようなボットからの圧倒的なトラフィックをブロックする必要があります」「私たちのコンテンツは無料で利用できますが、インフラストラクチャは決して無料ではありません。私たちはただちに、健全なバランスを再構築するために行動する必要があります」と語りました。

この記事のタイトルとURLをコピーする

・関連記事
Wikipedia時代にかつての名門百科事典メーカー・ブリタニカはなぜ巨大企業に成長できたのか - GIGAZINE

Meta AIが機械学習を利用してWikipediaの出典をチェックするツールを構築 - GIGAZINE

政府機関や軍隊などのIPアドレスから行われたWikipedia編集履歴をまとめたサイト「Wikiwho」 - GIGAZINE

Wikipediaの全記事をSDカードやUSBメモリに詰め込んで持ち運べる「Kiwix」の使い方まとめ - GIGAZINE

Cloudflareが学習用データを収集するAIボットを一括でブロックする機能をリリース - GIGAZINE

in ソフトウェア,   ネットサービス, Posted by log1r_ut

You can read the machine translated English article Wikimedia Foundation announces that 'rel….