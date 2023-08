2023年08月08日 17時00分 ソフトウェア

OpenAIが将来のAIモデルの改善に向けたウェブクローラー「GPTBot」を発表、同時にAIによる無断での学習を防ぐためのブロック方法も公開



GPT-3.5やGPT-4などの大規模言語モデルは、インターネット上のさまざまなコンテンツを学習することで、ユーザーからの質問やプロンプトに応えています。OpenAIが2023年8月に技術ドキュメントなどを公開したウェブクローラー「GPTBot」は、アクセスが許可されているウェブサイトから自動で情報を取得し、GPT-4や将来的に公開されるGPT-5などの大規模言語モデルの改善に役立てられるとされています。



GPTBot - OpenAI API

https://platform.openai.com/docs/gptbot





OpenAI Launches GPTBot With Details On How To Restrict Access

https://www.searchenginejournal.com/openai-launches-gptbot-how-to-restrict-access/493394/





Now you can block OpenAI’s web crawler - The Verge

https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai



GPTBot: OpenAI releases new web crawler

https://searchengineland.com/gptbot-openais-new-web-crawler-430360



OpenAIは、2023年8月に自社のAI製品の学習に使用されるウェブクローラー「GPTBot」を公開しました。GPTBotによる学習で、AIモデルの精度向上や一般的な能力、安全性の改善に役立つ可能性が示唆されています。



一方で、今後登場するOpenAIのAI関連製品に自身のサイトのコンテンツを無断で使用されたくないと考えるユーザーもいるはず。そこでOpenAIはGPTBotによるクローリングをブロックするための方法を紹介しています。





GPTBotによるサイトへのアクセスを完全にブロックするためには、ディレクトリ内の「robots.txt」に対して以下のようなコードを追加します。



User-agent: GPTBot Disallow: /



また、特定のディレクトリやファイルなど、サイト内の一部のコンテンツにアクセスを認める場合には、robot.txtに対して以下の変更を加えます。



User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/



さらに、OpenAIはGPTBotを含むOpenAIが使用するクローラーのIPアドレスも公開しており、IPアドレス単位でのアクセス拒否を行うことも可能です。



OpenAIに対してはこれまで、ユーザーに同意を求めたり警告したりすることなくインターネット上のコンテンツを用いて学習を行ってきたことについて、著作権やプライバシーなどの観点からさまざまな議論や訴訟の的となってきました。



ChatGPT開発のOpenAIがAI学習用データをめぐって集団訴訟を起こされる - GIGAZINE





海外メディアのSearch Engine Journalは、「GPTBotの公開によって、コンテンツの所有権やフェアユース、およびコンテンツ作成者へのインセンティブをめぐる複雑な議論への第一歩を踏み出しました」と述べています。



OpenAIは「有料コンテンツや個人情報を含むコンテンツ、当社のポリシーに反するテキストを含むコンテンツはGPTBotによるアクセス対象から除外、フィルタリング対象になったうえで、将来的な新しい言語モデルの改善に役立てられますす」と述べています。また、「GPTBotによるウェブページのクローリングを許可することで、AIの正確性やプライバシーの向上、可能性の拡大に貢献できます」と語っています。