メモ

スパム業者のメールアドレス収集方法とその防衛対策とは?

By Florian F. (Flowtography)

迷惑メールの被害を世界規模で見てみると、GoogleやYahoo!のような大手IT企業は年間300億ワットの電力を使用していますが、これは300万軒の家庭を賄うのに十分な電力と同等。もし迷惑メールが無ければ、多くの企業がエネルギーとお金を節約できるはずです。個人規模でも、強力な迷惑メールフィルタを使用しても、誤って通常のメールが分類されることがあるため、結局は迷惑メールフォルダを度々確認する時間を割かれてしまいます。そんな迷惑メールを送信するスパム業者は一体どうやってメールアドレスを仕入れているのか?ということが研究され、入手経路と防衛手段が明らかになっています。

How do spammers harvest your e-mail address? · Karan Goel
http://karan.github.io/email-spam/


ワシントン大学の学生カラン・ゴール氏は、インターネットマーケティングとブロガーだった経験から、「迷惑メールは途絶えることがなく、メールアドレスを持つ全ての人が迷惑メールを受信した経験があります」と断言します。時に金銭的損失を受けることもあるスパム業者の迷惑メールは、手口が巧妙になるにつれて普通のメールとの区別が困難になりつつあります。

それもそのはずで、2008年の論文によると、スパム業者は100ドル(約1万円)の商品を28件売りつけるまでに、3億5000万通もの迷惑メールを送る必要があるという研究結果が出ているためで、収益性を上げるためにあの手この手と、いろいろ考えたものを繰り出してきているというわけです。

2012年にゴール氏はスパム業者のメールアドレス収集手段と防衛手段を調査する研究に参加する機会に遭遇。研究に参加して1年で「Experiment」から資金を集めることに成功し、生データを基にしたスパム業者の仕組みを知ることができたとのこと。

研究チームは、スパム業者がどのようにメールアドレスを獲得しているか調査するため、あらゆるプラットフォームにメールアドレスを1度ずつ投稿。その後、人間が判読可能な状態でメールアドレスが表示された数をプラットフォームごとに集計しました。数が多いサイトほど登録しているメールアドレスが危険にさらされていることになり、Wordpressなどのブログサイトでは最も多くメールアドレスが直接閲覧できる形で表示されています。


・App storeレビュー欄(Apple、Chrome、Firefoxなど):4
・ブログコメント:119
・ブログサイト(Wordpress、bloggerなど):142
・Craigslist discussion board:6
・Dropboxにホストされたファイル:12
・Ecommerceサイト(Amazonなど):5
・Facebookプロフィール、ウォール、ページ:5
・サーバー上のファイル:21
・フォーラムのプロフィール:234
・Github:1
・Googleドキュメント:7
・Google 図形描画:2
・グリーティングカード生成サイト:18
・ゲストブック:12
・ロイヤルティプログラム:10
・メーリングリスト:85
・ウェブサイト上の<meta> タグ:4
・その他SNS:5
・サーバー上のPDF:8
・ペーストサイト(Pastebinなど):21
・Reddit:9
Scribd:10
・Slideshare:5
・迷惑メーリングリスト:51
・Twitter:2
・UW Directory:1
・Usenet:98
・動画サイト (YouTubeの説明欄/タイトル):53
・Whois:5
・Wikiサイト:84
・Yahoo Answers:25


以下は、どのようなメールアドレス難読化テクニックが有効なのかをテストした結果をグラフ化したもの。グラフが縦に伸びているほど効果がないことを意味しています。中でも「Invalid(無効化)」は最も多くメールアドレスを抜き取られており、javascriptによる難読化も次いで効果がありませんでした。


判読可能な状態で難読化されたメールアドレスを数ごとに列挙するとこんな感じ。表示テキストとリンクをすげ替える難読化が最も多く、「gigazine [at] irchver [dot] com」のように文字列を変換するいろいろな手法も多く使われています。


・分割:6
・ASCII:17
・コメント:3
・異なるHyperlink:114
・HTML Unicode:45
・画像化:21
・無効化:260
・不可視化:59
・JavaScript:18
・難読化なし:484
・ROT-13:2
・email (at) irchiver (dot) com:1
・email @ irchiver . com:23
・email @ irchiver.com:18
・email AT irchiver DOT com:5
・email AT irchiver.com:1
・email [@] irchiver.com:1
・email [at] irchiver [dot] com:15
・email [at] irchiver.com:8
・email at irchiver dot com:2
[email protected]:13
[email protected]:2
・email-AT-irchiver-.-com:1
・email-AT-irchiver.com:11
・email-at-irchiver-dot-com:4
・email-at-irchiver.com:2
・email[@]irchiver.com:1
・email[@]irchiver[.]com:12
・email[at]irchiver.com:2
・email[at]irchiver[.]com:2
・email[at]irchiver[dot]com:17
・email[at]irciver.com:2
・iFrame:2


以下は拡散されやすいメールアドレスの表示形式を検証した結果。「Yes」は「ここ」のようにメールアドレスをリンクの中に隠して表示しているもの。「No」は「[email protected]」のようにメールアドレスをリンク化しているものですが、両者ともさほど差はありません。最も効果的だったのは画像などにメールアドレスを埋め込む形式の「invaild」でした。


以下はクリック可能かどうかで検証した結果。「Yes」は「ここ」であり、「No」は「[email protected]」のように表示されているということ。クリック可能な状態で表示すると拡散されやすいという結果が出ています。


研究チームが約1000通のEメールをさまざまな場所に投稿したところ、合計して1万8000通もの迷惑メールを受信しました。投稿して20週を過ぎたころに迷惑メールの受信数がピークを迎えるという結果が出ています。これは投稿されたページが検索エンジンによってインデックスとランクを付けられるまでの時間と推測されています。


受信した迷惑メールを2012年3月20日~2013年6月11日までの期間で折れ線グラフにするとこんな感じ。10月後半のホリデーシーズン時期になるとメール量が最大になっており、スパム業者は迷惑メールを開封しやすい時期を狙っているようです。


しかし、1週間ごとに見てみると、週明けは規則的にメール量が増加しますが、やはり土日は休みたいためか、週末にかけてメール量は少なくなっていきます。平日に頻繁にメールチェックする人は多くないため、研究者は「帯域幅をムダに使用している」と述べています。


調査においてメールアドレスをさまざまなプラットフォームに投稿していますが、その結果ほとんどのウェブサイトが迷惑メールを送っていることが以下の図からわかります。迷惑メールのメーリングリストは顕著で、サイト内には「無料で『クレジットスコア/保険額/iPad』をプレゼントします」といった怪しい言葉にあふれていますが、多くの人がメールアドレスを登録し続けているとのこと。驚くべきことに、メールアドレスを画像で表示するWhoisを通じて大量の迷惑メールが送られており、画像による難読化は効果が薄く、Whoisはスパム業者の採掘場となっているようです。


そんな中、1つも迷惑メールを送ってこなかったプラットフォームも存在します。自社サーバーの保管が安全であるほか、IT企業の中でもトップクラスのApple、Amazon、Facebook、Google、Twitterなどの名前が挙がっているのはさすがというところ。


・App Store(レビュー投稿時)
・Eコマース (Amazonなど、サインアップ時)
・Facebook (パブリック状態のFacebookページ・プロフィール)
・サーバー上のファイル(自前のサーバーにテキストファイル)
・Googleドキュメント
・Google drawing
・Twitter(Eメールを添えてツイート)


最終的に、研究チームはあらゆる種類のメールアドレス難読化技術を使って、実際にどの技術が防衛に効果を発揮したのかを検証。ROT13、ASCIIによる難読化が最高の結果を出していますが、専用のソフトが必要なため、誰でも使える防衛手段ではないことが難点です。


迷惑メールが1つも送られなかった優秀な防衛手段の実例を並べるとこうなります。


・<span>タグによる分割(HTMLでメールアドレスに異なる<span>タグを挿入)
・ASCII(暗号化)
・HTML Unicode(暗号化)
・Image(メールアドレスを画像で表示)
・ROT-13(アルゴリズムを変換)
・email (at) irchiver (dot) com
・email @ irchiver . com
・email [at] irchiver [dot] com
[email protected]
・email-AT-irchiver.com
・iFrame (メールアドレスを1つのページに記載し、iFrameで別のページに埋め込む)


研究チームの提案する防衛手段をまとめると、以下の通り。
・ソースコードを操作できるウェブサイトにメールアドレスを記載している場合は、「ROT-13」「ASCII」「HTML Unicode」でエンコードするのが有効的。一見するとメールアドレスをただのテキストのように見せかけられます。
・もしあまりにも「ウマイ話」を持ちかけるウェブサイトがあれば回避するべきです。「無料のiPad」はメールアドレスと交換でプレゼントされることはありません。メールアドレスはスパム業者内で売買されるため、一度でも登録すると延々と迷惑メールが届き始めます。
・ソースコードに記載するメールアドレスを「karan-AT-goel-DOT-im」のようにできるだけバラバラにすると、ユーザーの操作性に影響が出てしまいますが、スパム業者のコピー&ペーストを防止可能。
・デフォルトでメールアドレスを記入させるフォームに注意。調査結果によるとフォームに記載されたメールアドレスにマーケティングメールが届くだけでなく、時によっては広告主に販売されることがあります。
・メールアドレスを記載させるフォーラムや掲示板にも注意が必要。これらはスパム業者の最大のメールアドレス入手先になっています。どうしても記載しなければいけない時は、使い捨てのメールアドレスを使うなどして対処するべきです。
・もしドメイン名を取得する場合は、Whoisに別の情報を置き換えてスパム対策できる「WhoisGuard」を使うと効果的。本当のメールアドレスへメールを転送するオプションも付属しています。

なお、Gmailは独自に迷惑メールやフィッシングメール対策を行っています。Googleの調査結果によるとGmailに届く非迷惑メールの内、約90%がDKIMSPFという、なりすましを防止するドメイン認証技術を使って送信されているとのこと。これらの技術によって、Googleは年間で数十億ものなりすましメールをフィルタリングしています。

Google Online Security Blog: Internet-wide efforts to fight email phishing are working
http://googleonlinesecurity.blogspot.jp/2013/12/internet-wide-efforts-to-fight-email.html

この記事のタイトルとURLをコピーする

・関連記事
75万通のスパムメールは冷蔵庫・テレビ・家庭用ルーターなどを利用していることが判明 - GIGAZINE

Facebookで暗躍するスパム業者がどれぐらい荒稼ぎしているのかが判明 - GIGAZINE

迷惑メールだと分かっていても面白いネタを共有する「SPAM MUSEUM」 - GIGAZINE

全世界で送られたメールの97%以上がスパムメールであることが判明 - GIGAZINE

Googleにもアクセス拒否され、スパム送信源と化した「libwww-perl」とは? - GIGAZINE

in メモ,   ソフトウェア,   ネットサービス, Posted by darkhorse_log

You can read the machine translated English article here.