ソフトウェア

OpenAIが将来のAIモデルの改善に向けたウェブクローラー「GPTBot」を発表、同時にAIによる無断での学習を防ぐためのブロック方法も公開


GPT-3.5やGPT-4などの大規模言語モデルは、インターネット上のさまざまなコンテンツを学習することで、ユーザーからの質問やプロンプトに応えています。OpenAIが2023年8月に技術ドキュメントなどを公開したウェブクローラー「GPTBot」は、アクセスが許可されているウェブサイトから自動で情報を取得し、GPT-4や将来的に公開されるGPT-5などの大規模言語モデルの改善に役立てられるとされています。

GPTBot - OpenAI API
https://platform.openai.com/docs/gptbot


OpenAI Launches GPTBot With Details On How To Restrict Access
https://www.searchenginejournal.com/openai-launches-gptbot-how-to-restrict-access/493394/


Now you can block OpenAI’s web crawler - The Verge
https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai

GPTBot: OpenAI releases new web crawler
https://searchengineland.com/gptbot-openais-new-web-crawler-430360

OpenAIは、2023年8月に自社のAI製品の学習に使用されるウェブクローラー「GPTBot」を公開しました。GPTBotによる学習で、AIモデルの精度向上や一般的な能力、安全性の改善に役立つ可能性が示唆されています。

一方で、今後登場するOpenAIのAI関連製品に自身のサイトのコンテンツを無断で使用されたくないと考えるユーザーもいるはず。そこでOpenAIはGPTBotによるクローリングをブロックするための方法を紹介しています。


GPTBotによるサイトへのアクセスを完全にブロックするためには、ディレクトリ内の「robots.txt」に対して以下のようなコードを追加します。

User-agent: GPTBot
Disallow: /


また、特定のディレクトリやファイルなど、サイト内の一部のコンテンツにアクセスを認める場合には、robot.txtに対して以下の変更を加えます。

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/


さらに、OpenAIはGPTBotを含むOpenAIが使用するクローラーのIPアドレスも公開しており、IPアドレス単位でのアクセス拒否を行うことも可能です。

OpenAIに対してはこれまで、ユーザーに同意を求めたり警告したりすることなくインターネット上のコンテンツを用いて学習を行ってきたことについて、著作権やプライバシーなどの観点からさまざまな議論や訴訟の的となってきました。

ChatGPT開発のOpenAIがAI学習用データをめぐって集団訴訟を起こされる - GIGAZINE


海外メディアのSearch Engine Journalは、「GPTBotの公開によって、コンテンツの所有権やフェアユース、およびコンテンツ作成者へのインセンティブをめぐる複雑な議論への第一歩を踏み出しました」と述べています。

OpenAIは「有料コンテンツや個人情報を含むコンテンツ、当社のポリシーに反するテキストを含むコンテンツはGPTBotによるアクセス対象から除外、フィルタリング対象になったうえで、将来的な新しい言語モデルの改善に役立てられます」と述べています。また、「GPTBotによるウェブページのクローリングを許可することで、AIの正確性やプライバシーの向上、可能性の拡大に貢献できます」と語っています。

この記事のタイトルとURLをコピーする

・関連記事
ChatGPT開発のOpenAIがAI学習用データをめぐって集団訴訟を起こされる - GIGAZINE

ChatGPTがでっちあげた存在しない過去の判例をそのまま採用した弁護士に5000ドルの支払いが命じられる - GIGAZINE

ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利 - GIGAZINE

ChatGPTで秘密情報の流出を防ぐ学習拒否設定の方法&会話履歴のダウンロード方法まとめ - GIGAZINE

画像生成AI「Stable Diffusion」と「Midjourney」に対して集団訴訟が提起される - GIGAZINE

in ソフトウェア, Posted by log1r_ut

You can read the machine translated English article here.