ソフトウェア

AIトレーニング用のデータをかき集めるクローラーを無限生成される迷路に閉じ込める「Nepenthes」が開発される


AIのトレーニングに使用されるデータをインターネット上からかき集めるために使用されるのがクローラーです。自身のウェブサイト上のデータをAIのトレーニングに利用されないようにするためのオプションを大手AI企業は提供していますが、この種のブロックを迂回してクローラーがウェブサイトから情報を抜き出していることも問題視されています。そんなクローラーを無限に生成される迷路に閉じ込めることができるのが「Nepenthes」です。

Developer Creates Infinite Maze That Traps AI Training Bots
https://www.404media.co/email/7a39d947-4a4a-42bc-bbcf-3379f112c999/


大規模言語モデル(LLM)をトレーニングするためのデータをスクレイピングするのがクローラーですが、そんなクローラーをターゲットとして、無限に迷路のようなトラップを生成するのがNepenthesです。Nepenthesについて、作者は「実際には内部に侵入したものすべてを何でも食べてしまいます」と警告しています。

Nepenthesは数十のリンクを持つウェブページを無限に生成することで、クローラーを捕獲するというもの。生成されたリンクはNepenthesが設置されたウェブページへのリンクであるため、クローラーは無限にリンクを周回してもAIのトレーニングに使えるようなデータを収集することはできません。なお、作者はNepenthesについて「有害なアクティビティを引き起こすことを意図した悪意のあるソフトウェアであるため、実行内容に完全に納得できない場合はデプロイしないでください」と注意喚起しています。

Nepenthes
https://zadzmo.org/code/nepenthes/


Nepenthesの作者にインタビューしたテクノロジーメディアの404 Mediaによると、作者は「Aaron B」と名乗ったそうです。同氏はNepenthesについて、「Nepenthesはハエ取り紙というよりも、ミノタウルスを閉じ込めた無限迷路のようなものです。クローラーは脱出不可能なミノタウルスです。一般的なクローラーはロジックがあまりないようで、URLをダウンロードし、他のURLへのリンクを見つけたら、それもダウンロードします。Nepenthesは常に自分自身を指すランダムなリンクを生成するので、クローラーは新しいリンクをダウンロードしてもNepenthesしかダウンロードできません」「クローラーはNepenthesの迷宮をさまよっていることを検知する方法を見つけない限り、リソースを消費し、何の役にも立たないままぐるぐる迷宮を迷い続けることとなります」と説明しました。

以下のページはNepenthesがどのように動作するのかを確認できるデモページ。ページにアクセスすると複数のリンクが生成されるので、クローラーになりきってリンクをクリックしてみると、新しいリンクが複数作成される様子が確認できます。何度リンクをクリックしても新しいページに飛ばされ、再び新しいリンクが表示されるため、クローラーが永久に意味のないページをさまようことがよくわかるはずです。なお、ページの動作は非常に重いのですが、作者は意図的に読み込みが遅くなるよう設計していると説明しており、これは「クローラーが時間を無駄にするためだけでなく、サーバーが落ちないように意図的に遅延を追加しているためです」と説明しました。

zadzmo.org/nepenthes-demo/
https://zadzmo.org/nepenthes-demo/


AIトレーニング用のスクレイピングを実行するクローラーをブロックしたい場合、「robots.txt」を使用してクローラーがウェブページをクロールできないようにすることが可能です。しかし、AI企業はそれぞれ異なるクローラーを使用しており、クローラーの名前も頻繁に更新されており、企業によっては「robots.txt」の要求を無視しているケースまであります。

生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している - GIGAZINE


クローラー問題がインターネットユーザーの関心を引き付けたことで、Aaron B氏はNepenthesの開発に思い至ったと説明しており、「これは一種の芸術作品です。物事の進み方に対する純粋な怒りを解き放ったもので、インターネットが金銭搾取のパノプティコンに進化し、世界全体がファシズムに陥り、寡頭政治家がすべてを仕切る現状にウンザリしていることを表現しています。ボイコットや投票では抜け出すことができないほど状況は悪化しており、変化を起こすには上に立つ人々に本当の痛みを与えなければいけません」とも語っています。

なお、Aaron B氏によるとNepenthesを公開して以来、クローラーは何百万回も公開ページにアクセスしているそうです。Hacker News上ではAI企業のCEOを名乗る人物が「この種のトラップは簡単に回避できる」と述べ、Nepenthesはクローラーの問題にはならないと豪語していますが、Aaron B氏は「アクセスログを見るに、全能のGoogleでさえNepenthesのトラップを回避できていないことがわかります」と語っています。

この記事のタイトルとURLをコピーする

・関連記事
OpenAIのクローラーボットが3Dスキャンデータ販売サイトをほぼDDoS攻撃な徹底スクレイピングでダウンさせていた - GIGAZINE

生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している - GIGAZINE

Googleが生成AIのトレーニングに自分のウェブサイトが使われないようにするオプションを発表、もう遅いという指摘も - GIGAZINE

OpenAIが将来のAIモデルの改善に向けたウェブクローラー「GPTBot」を発表、同時にAIによる無断での学習を防ぐためのブロック方法も公開 - GIGAZINE

in ソフトウェア, Posted by logu_ii

You can read the machine translated English article 'Nepenthes' is developed to trap crawler….