ソフトウェア

「☆→@に変更」などのメールアドレス難読化手法はChatGPTで簡単に突破できてしまう


SNSのプロフィール欄などにメールアドレスをそのまま載せると、スクレイピングにより収集されて迷惑メールを送られるなどの被害に遭ってしまうため、「abc123☆mail.com(☆をアットマークに置き換えてください)」というような難読化がよく使われています。しかし、このテクニックはChatGPTで簡単に回避できてしまうと、AIツールの開発者が指摘しました。

Email Obfuscation Rendered (almost) Ineffective Against ChatGPT
https://bulkninja.notion.site/Email-Obfuscation-Rendered-almost-Ineffective-Against-ChatGPT-728fba1b948d42c6b8dfa73cb64984e4


AIツール「BulkNinja」を開発しているアルノー・ノーマン氏は、ソーシャルニュースサイト・Hacker Newsの「Ask HN: Who is hiring?」というスレッドをAIで整理するプロジェクトを進めている最中に、ChatGPTを使えばメールアドレスの難読化を無意味にできることに気づきました。

「Ask HN: Who is hiring?」では、さまざまな企業やスタートアップが求人広告を出したり、逆に求職中の人が自分をPRしたりしており、記事作成時点で総計4万8934件の投稿が集積されていますが、書式が不統一なので膨大な情報の整理は骨が折れる作業です。

これらのデータをGoogle Sheetsにまとめようとしていたノーマン氏は、「難読化された連絡先を抽出するのはさすがに難しいだろう」と予想していましたが、ChatGPTはメールアドレスの文字が別の文字に置き換えられても、問題なく連絡先を収集してしまいました。


「置換法」以外に、ノーマン氏がプロジェクトの中で見つけて印象深いと感じた難読化テクニックは以下の3つです。

◆1:情報の分割
これは、メールアドレスの一部を「john@会社名ドメイン」と表記するなどして、投稿に記載された社名と組み合わせないとメールアドレスがわからないようにするというものです。この方法はかなり効果的でしたが、「think step by step(段階的に考えて)」というプロンプトを使うことであっさり無効化されました。

◆2:間接的な掲載
これは、メールアドレスを直接書かず、「お問い合わせは求人情報ページのメールアドレスまでお願いします」という一文を添えて当該ページにアクセスしないとメールアドレスを得られないようにするというものです。ノーマン氏のコードはブラウジング機能を持っていなかったので、この方法は依然として有効とのこと。

◆3:間接的な掲載その2
これは上記の方法と同じで、「メールアドレスは私のプロフィールにあります」と記載して、Hacker Newsのプロフィールを参照させる方法です。前述の理由で、この方法も効果的でした。

生成AIを使用してメールアドレスをGoogle Sheetsにまとめることに成功したノーマン氏ですが、最終的に難読化されていたアドレスはデータベースから除外することにしました。というのも、わざわざ難読化したということは、その人はメールアドレスを収集されたくないと考えているのが明らかだからです。


この経験についてノーマン氏は「要約すると、ChatGPTのような高度な言語モデルの前では、文字置換のような従来の電子メール難読化手法はまったく効果がありません。これらのAIモデルは、多様な難読化技術を解読する優れた能力を持っているので、自動収集から電子メールのアドレスを保護するための戦いは旗色が悪いようです。どうしてもメールアドレスを守りたい場合は、何重にも難読化を施し、アドレスを複数の情報源にちりばめることでより強固に守れるかもしれません」と述べました。

ノーマン氏の記事を取り上げたHacker Newsのスレッドには、「ChatGPTでメールアドレスを抜き出すのに必要なコストが、メールをスクレイピングして得られる収益を上回っているので、この問題への影響はありません」と指摘する投稿や、ローカルマシンで動くようなオープンソースのモデルもあるので運用コストは低く抑えられると反論する投稿などが寄せられていました。

この記事のタイトルとURLをコピーする

・関連記事
ChatGPTを凶悪な暴言マシンに変貌させる魔法の文字列が発見される - GIGAZINE

GPT-4が「私はロボットではありません」を突破、事情を知らない人間に「私は盲目の人間なので代わりに解いて」とおねだり - GIGAZINE

ChatGPTに「亡くなったおばあちゃんになりきってくれ」と頼んでWindows 10 Proで使用可能なインストール用キーを生成させることに成功 - GIGAZINE

話題のチャットAI「ChatGPT」のセーフガードを回避して「不適切な回答」を聞き出す手法とは? - GIGAZINE

ChatGPTなどの優れたチャットボットAIがいかに犯罪に使われやすいかをユーロポールがまとめて公開 - GIGAZINE

in ソフトウェア, Posted by log1l_ks

You can read the machine translated English article here.