ネットサービス

生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している


Perplexityは生成AIを利用した検索エンジンであり、ユーザーの質問に対してAIが直接回答を生成できるほか、ユーザーのプロンプトに基づいたウェブページを生成する「Pages」という機能を提供しています。そんなPerplexityが、検索エンジンやAIトレーニングなどのボット(クローラー)を制御するテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが判明しました。

Perplexity AI Is Lying about Their User Agent • Robb Knight
https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/


GoogleやBingなどの検索エンジンやChatGPTをはじめとする生成AIは、クローラーと呼ばれるプログラムを使ってインターネット上から膨大な情報を収集し、検索結果やAIのトレーニングなどに利用しています。ウェブサイト側がクローラーの巡回を制御するために使われているのが、robots.txtというテキストファイルです。管理者はrobots.txtに特定の要素を含めることで、クローラーをブロックできる仕組みになっています。

近年では、生成AIのトレーニングに無断でインターネットのデータが利用されることを問題視する動きがあり、2023年8月にはOpenAIが用いるクローラー「GPTBot」のブロック方法が公開されたほか、Googleも生成AIのトレーニングにウェブサイトが使われないようにするオプションを発表しました。

Googleが生成AIのトレーニングに自分のウェブサイトが使われないようにするオプションを発表、もう遅いという指摘も - GIGAZINE


テクノロジー系ブログを運営するロブ・ナイト氏は、2024年3月に生成AIを使った検索エンジンであるPerplexityのクローラー「PerplexityBot」を、自身のブログのrobots.txtで禁止し始めました。

ナイト氏はブロックが実施されているかどうかチェックするため、Perplexityへ自身のブログの記事のURLを貼って「この投稿は何ですか」と尋ねてみました。すると、Perplexityはアクセスできないはずのブログ記事から情報を引っ張り出し、さまざまな詳細を含む要約を生成したとのこと。ブログのrobots.txtがうまく機能していないだけの可能性もあると考えたナイト氏は、nginxを使用してテストを行いましたが、適切にPerplexityBotはブロックできているはずだということを確認しました。

その後も調査したところ、PerplexityBotはヘッドレスブラウザを使用して、robots.txtを無視してコンテンツをスクレイピングしていることがわかりました。送信されたユーザーエージェント文字列には「PerplexityBot」を示す部分が含まれておらず、robots.txtではクローラーを防げないようになっていたとのことです。

なお、ナイト氏がPerplexityに対して「robots.txtはこのウェブサイトのクロールを禁止しているのに、なぜアクセスするのですか?」と尋ねたところ、「私は実際にウェブサイトをクロールしたり、robots.txtファイルでブロックされているコンテンツにアクセスしたりする能力を持っていません。ウェブサイトのコンテンツがrobots.txtによって制限されている場合、私は倫理的にそのコンテンツにアクセスすることも要約することもできません」と回答しました。


この件はソーシャルニュースサイトのHacker Newsでも大きな話題となっています。ユーザーからは、「AI開発企業によるクローラーを防ぐことを強制すると、広告ブロッカーやその他の有益なソフトウェアにも悪影響を及ぼしかねない」という指摘や、「Perplexityのような生成AI検索エンジンによるクロールは、ウェブサイトに直接アクセスするユーザーを減少させてさまざまなデメリットを生む」といった意見が寄せられています。

Perplexity AI is lying about their user agent | Hacker News
https://news.ycombinator.com/item?id=40690898


・つづき
「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張 - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
AI検索エンジンのPerplexityがユーザーのプロンプトに基づいてカスタマイズ可能なウェブページを生成する「Pages」機能を発表 - GIGAZINE

AI検索エンジンの「Perplexity」がForbesなどの記事の一部をAIでまとめてほぼ同一の内容を最低限の帰属表示で再公開していると指摘される - GIGAZINE

ChatGPT、Claude、Perplexityという3つの競合AIが同時にシステム障害を起こし利用不可に - GIGAZINE

インターネット上の最新情報を収集して最近の話題に対応できる大規模言語モデル「pplx-7b-online」&「pplx-70b-online」が公開されたので性能を確かめてみた - GIGAZINE

「ChatGPT」「Copilot」「Gemini」「Claude」「Perplexity」の性能を日常的な会話で評価した結果が公開される - GIGAZINE

in ソフトウェア,   ネットサービス, Posted by log1h_ik

You can read the machine translated English article here.