ネットサービス

ニュースメディア各社がAIによるデータ収集を懸念しインターネットアーカイブのアクセスを制限


膨大なネットコンテンツの収集・保存を行っているインターネットアーカイブは、ページのバージョンや日時ごとにも保存されており、保存されたウェブページの総数は2025年10月に1兆件を超えました。インターネットアーカイブが保存したページの多くは公開ツールであるWayback Machineでアクセスできますが、インターネットアーカイブの自由な情報アクセスへの取り組みがAIの学習データに利用されることを懸念して、複数のニュース出版社がインターネットアーカイブのアクセスを制限する対応をしています。

News publishers limit Internet Archive access due to AI scraping concerns | Nieman Journalism Lab
https://www.niemanlab.org/2026/01/news-publishers-limit-internet-archive-access-due-to-ai-scraping-concerns/


イギリスの大手誌であるThe Guardianのビジネス・アフェアーズ・アンド・ライセンス担当責任者であるロバート・ハーン氏によると、The Guardianのコンテンツを抽出しようとしているボットを調査していたところ、インターネットアーカイブが頻繁にクロールしていたことがアクセスログから判明したとのこと。ハーン氏は「AI企業の多くは、すぐに利用できる構造化されたコンテンツデータベースを求めています。インターネットアーカイブのAPIは、自社のマシンを接続して著作権で保護された文章を吸い上げるための格好の場所だったはずです」と述べました。

結果としてThe Guardianは特定のAPIや記事ページへのアクセスをWayback Machineのインデックスから削除するよう設定し、記事本文が構造化された形で取得されないよう対策したことを明らかにしました。完全にブロックしたわけではない理由について、ハーン氏は「情報の民主化というこの非営利団体の使命を支持しています」と語りました。


また、The New York Timesも2025年末にサイトのrobots.txtにインターネットアーカイブのクロールボット名である「archive.bot」を追加し、記事クロールを「ハードブロック(完全アクセス拒否)」したことを明かしています。The New York Timesの広報担当者は「私たちはThe New York Timesの人間主導のジャーナリズムの価値を信じており、常に私たちの知的財産が合法的にアクセスされ、使用されていることを保証したいと考えています。Wayback Machineは、AI企業を含むあらゆる主体による許可なしのコンテンツへの自由なアクセスを提供しているため、インターネットアーカイブのボットによるアクセスをブロックしています」とコメントしました。

他のニュースメディアも同様のブロック措置を採用しているかどうかを調べるため、ハーバード大学のジャーナリズム機関であるNieman Labは1167のニュースサイトのデータベースにおいて、robots.txtファイルを読み取る調査を行いました。その結果、9か国における241のニュースサイトが、インターネットアーカイブの4種のクローラーボットのうち少なくとも1つを明示的にブロックしていることが判明しました。このデータは76%がアメリカに拠点を置いたニュースサイトのリストに基づく探索的なものであり、世界規模の業界全体の包括的な傾向を表すものではありません。また、241サイトのうち240サイトはAIのトレーニングと密接に関係している「Common Crawl」というアーカイブも対象としていることが分かりました。

OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている - GIGAZINE


オールドドミニオン大学のコンピューター科学者であるマイケル・ネルソン教授は「インターネットアーカイブは広く『善』と見なされていますが、OpenAIのような『悪』に利用されています。誰もがAIによる管理を嫌う中で、巻き添え被害を受けているのだと言えます」と説明しました。

ニュースメディアによるブロックについて問われたインターネット・アーカイブ創設者ブリュースター・カーレ氏は、「出版社がインターネットアーカイブのような図書館を制限すれば、一般の人々が歴史記録にアクセスできなくなります。そして、それがインターネットアーカイブによる『情報の混乱対策』の取り組みを阻害する可能性があります」と懸念を語りました。カーレ氏は2025年10月にMastodonでの投稿で「インターネットアーカイブのオープンデータセットは一括ダウンロードを歓迎していますが、ユーザーがダウンロードできないコレクションも数多くあります」と述べており、フィルタリングや制限による情報アクセスの制御措置についても言及しています。

この記事のタイトルとURLをコピーする

・関連記事
OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている - GIGAZINE

インターネットアーカイブの保存数が1兆ページに到達 - GIGAZINE

インターネットアーカイブの創設者が「我々は生き残ったが、ライブラリは壊滅した」と語る - GIGAZINE

インターネットアーカイブはどんな設備でどのように運営されているのか? - GIGAZINE

インターネットアーカイブのWayback Machineがリンク切れ問題を解決するため新しいプラグインを発表 - GIGAZINE

インターネットアーカイブが出版社勝訴の影響で50万冊の書籍を貸出リストから削除 - GIGAZINE

in AI,   ネットサービス, Posted by log1e_dh

You can read the machine translated English article News media companies restrict access to ….