OpenAIがインターネット上のコンテンツ収集に用いるウェブクローラー「GPTBot」をブロックする試みが進行中
対話型AIのChatGPTを開発するOpenAIは2023年8月に、大規模言語モデルの学習に必要なデータセットをインターネット上から収集するためのウェブクローラー「GPTBot」に関する詳細を公開しました。GPTBotに関するオンラインドキュメントには、GPTBotによるコンテンツの収集を防ぐための方法も記載されており、一部のウェブサイトは早速GPTBotのブロックに乗り出していることが報じられています。
Now you can block OpenAI’s web crawler - The Verge
https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai
OpenAI launches web crawling GPTBot, sparking blocking effort by website owners and creators | VentureBeat
https://venturebeat.com/ai/openai-launches-web-crawling-gptbot-sparking-blocking-effort-by-website-owners-and-creators/
Sites scramble to block ChatGPT web crawler after instructions emerge | Ars Technica
https://arstechnica.com/information-technology/2023/08/openai-details-how-to-keep-chatgpt-from-gobbling-up-website-data/
テキストや画像を生成するAIに搭載されているGPT-4などの大規模言語モデルは、モデルを訓練するために大量のデータセットが必要となります。データセットの中にはインターネット上から収集されたさまざまなコンテンツも含まれており、GPT-3.5が学習に用いた非営利団体・Common Crawlが提供するオープンソースのデータセットは、2008年以降にインターネットから収集された合計45TBものテキストで構成されているとのこと。
こうしたデータセットの中には、著作権で保護されたコンテンツや本来なら料金を支払わないと購読できない有料記事、一般人の個人情報などが含まれていることが問題視されています。2023年6月には、ChatGPTの訓練に用いられたデータセットが人々の著作権やプライバシーを侵害しているとして、カリフォルニアを拠点とするクラークソン法律事務所がOpneAIに対して集団訴訟を起こしました。
AI開発企業はこれらの問題提起を受けて、「AIの訓練に著作権がクリーンなデータセットを活用する」といった対応に迫られています。OpenAIは8月に、GPT-4や将来的に公開されるGPT-5などの大規模言語モデルの改善に用いるウェブクローラー「GPTBot」の詳細について、オンラインドキュメントで発表しました。
OpenAIが将来のAIモデルの改善に向けたウェブクローラー「GPTBot」を発表、同時にAIによる無断での学習を防ぐためのブロック方法も公開 - GIGAZINE
OpenAIは、「有料コンテンツや個人情報を含むコンテンツ、当社のポリシーに反するテキストを含むコンテンツはGPTBotによるアクセス対象から除外され、フィルタリング対象になったうえで、将来的な新しい言語モデルの改善に役立てられます」「GPTBotによるウェブページのクローリングを許可することで、AIの正確性やプライバシーの向上、可能性の拡大に貢献できます」と語っています。
その上で、GPTBotに関するオンラインドキュメントでは、「GPTBotによるクローリングをブロックするための方法」についても記載されています。GPTBotのアクセスをブロックするには、ディレクトリ内の「robots.txt」に2行のコードを加えるだけでOKとのことで、いくつかのウェブサイトはこの方法が公開された直後に対応を行っています。
たとえば、テクノロジー系メディアのThe VergeはすでにGPTBotをブロックするコードを「robots.txt」に追加しているほか、オンラインSF雑誌のclarkesworldはX(旧Twitter)への投稿でGPTBotをブロックしたことを報告しました。
We are now blocking another one of OpenAI's scraping bots. You can too. (I don't know if this is the secret one we couldn't block before or if that one is still in use.)https://t.co/qJqlmTZzAN
— clarkesworld (@clarkesworld) August 7, 2023
なお、GPTBotのブロックはあくまで今後のデータスクレイピングを防ぐものであり、すでに収集されてしまったコンテンツについては影響を及ぼしません。また、OpenAI以外のデータスクレイパーによって収集されたデータセットにも関係がないため、OpenAIと提携していないAIの訓練には、GPTBotをブロックしたウェブサイトのコンテンツが使用される可能性があります。
・関連記事
OpenAIが将来のAIモデルの改善に向けたウェブクローラー「GPTBot」を発表、同時にAIによる無断での学習を防ぐためのブロック方法も公開 - GIGAZINE
ChatGPT開発のOpenAIがAI学習用データをめぐって集団訴訟を起こされる - GIGAZINE
ChatGPTのウェブブラウジング機能が一時停止、有料記事を無料で読めてしまうとの報告から - GIGAZINE
OpenAIやGoogleなど大手AI開発企業が「AI生成コンテンツに透かしを入れる」などAIの安全性強化に取り組むことを発表 - GIGAZINE
CNETがAIで記事生成を始めてわずか数週間後に大規模な人員削減を実施、主要メンバーの10%が解雇され編集長は辞任してAI担当に転身 - GIGAZINE
CNETがGoogle検索のランキングを向上させるために古い記事を大量削除、一方でGoogleは古いコンテンツでも大丈夫だと反論 - GIGAZINE
ChatGPTがでっちあげた存在しない過去の判例をそのまま採用した弁護士に5000ドルの支払いが命じられる - GIGAZINE
画像生成AI「Stable Diffusion」と「Midjourney」に対して集団訴訟が提起される - GIGAZINE
ChatGPTで秘密情報の流出を防ぐ学習拒否設定の方法&会話履歴のダウンロード方法まとめ - GIGAZINE
・関連コンテンツ