ソフトウェア

「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張


生成AIを利用した検索エンジンの「Perplexity」に対して、検索エンジンやAIトレーニングなどのボット(クローラー)を制御できるテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが指摘されています。これに対し、Perplexityのアラヴィンド・スリニヴァスCEOが、「robots.txtの指示を無視しているわけではない」「自社のクローラーだけでなく、サードパーティーのクローラーにも依存している」と釈明しました。

Perplexity AI CEO Aravind Srinivas on plagiarism accusations - Fast Company
https://www.fastcompany.com/91144894/perplexity-ai-ceo-aravind-srinivas-on-plagiarism-accusations


Perplexity’s AI Chatbot: Why Wired Magazine Calls It a ‘BS Machine’
https://www.cryptoglobe.com/%E6%9C%80%E6%96%B0/2024/06/perplexitys-ai-chatbot-why-wired-magazine-calls-it-a-bs-machine/

AI companies are reportedly still scraping websites despite protocols meant to block them
https://www.engadget.com/ai-companies-are-reportedly-still-scraping-websites-despite-protocols-meant-to-block-them-132308524.html

Exclusive: Multiple AI companies bypassing web standard to scrape publisher sites, licensing firm says | Reuters
https://www.reuters.com/technology/artificial-intelligence/multiple-ai-companies-bypassing-web-standard-scrape-publisher-sites-licensing-2024-06-21/

基本的に、GoogleやBingなどの検索エンジンや生成AIは、クローラーと呼ばれるプログラムを使ってインターネット上から膨大な情報を入手し、検索結果やAIのトレーニングに役立てています。一方で、ウェブサイト側がクローラーの巡回を制御するために使われているのが、robots.txtというテキストファイルで、管理者はrobots.txtに特定の要素を含めることで、クローラーをブロックできる仕組みになっています。


しかし、これまでの調査でPerplexityはrobots.txtで禁止されているはずのブログ記事から情報を抽出し、さまざまな詳細を含む要約を生成したことが指摘されています。さらに、Perplexityのクローラーはヘッドレスブラウザを使用して、robots.txtを無視してコンテンツのスクレイピングを実行していることも判明しています。

Perplexityのこの動作に対しユーザーからは「Perplexityのような生成AI検索エンジンによるクロールは、ウェブサイトに直接アクセスするユーザーを減少させてさまざまなデメリットを生む」などの意見が寄せられました。

生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している - GIGAZINE


一方でPerplexityのスリニヴァスCEOは「robots.txtのようなプロトコルを無視しているわけではありません。しかし、私たちは自社のクローラーだけでなく、サードパーティーのクローラーにも依存しています」と報告。スリニヴァス氏によると、秘密保持契約を理由に具体的なプロバイダー名は明かせないものの、ウェブクローリングおよびインデックスサービスを手がけるサードパーティープロバイダーが所有するクローラーを使用していたとのこと。

AI企業とペアを組んでライセンス契約を結ぶスタートアップのTollBitが「50以上のウェブサイトが、robots.txtプロトコルを無視してサイトからコンテンツを取得することを選択している」と指摘。TollBitは具体的な企業名を明かさなかったものの、海外メディアのBusiness Insiderの調べでは、ChatGPTの開発元であるOpenAIや、Claudeを手がけるAnthropicもrobots.txtプロトコルを無視していることが判明しています。

なお、Anthoropicは「Anthropicのクローラーはrobots.txtの業界標準の指令を尊重しており、ユーザーからの『クロールしてはならない』という信号を尊重しています」と述べ、クローラーをブロックする方法を解説しています。


スリニヴァス氏は「TollBitのような企業が所有するクローラーも使用しています」と認めたうえで、「robots.txtのようなクローラーを制御するプロトコルは法的に定められたものではありません。ウェブサイトを運営するパブリッシャーとテクノロジー企業は新しい関係を築かなければなりません」と主張しました。

また、スリニヴァス氏は「すぐにサードパーティークローラーに連絡して、robots.txtで保護されているコンテンツのクロールをやめるように伝えることができなかったのか」との指摘に対し「複雑な問題です」と述べています。

この記事のタイトルとURLをコピーする

・関連記事
「ChatGPT」「Copilot」「Gemini」「Claude」「Perplexity」の性能を日常的な会話で評価した結果が公開される - GIGAZINE

インターネット上の最新情報を収集して最近の話題に対応できる大規模言語モデル「pplx-7b-online」&「pplx-70b-online」が公開されたので性能を確かめてみた - GIGAZINE

ChatGPT、Claude、Perplexityという3つの競合AIが同時にシステム障害を起こし利用不可に - GIGAZINE

AI検索エンジンの「Perplexity」がForbesなどの記事の一部をAIでまとめてほぼ同一の内容を最低限の帰属表示で再公開していると指摘される - GIGAZINE

AI検索エンジンのPerplexityがユーザーのプロンプトに基づいてカスタマイズ可能なウェブページを生成する「Pages」機能を発表 - GIGAZINE

in ソフトウェア, Posted by log1r_ut

You can read the machine translated English article here.