400以上の有名サイトがユーザーの行動を完璧にトレースできる「セッション・リプレイ」スクリプトを使っている
by Dmitry Ratushny
インターネットを利用している人で、検索エンジンやISP、ウェブサイトなどがユーザーの行動を追跡していることを知らない人はいないはず。しかし、新たにプリンストン大学・Center for Information Technology Policy(情報技術政策センター/CITP)の研究者らが発表した調査結果により、ウェブサイト上で「ユーザーが何をクリックしたのか?」といった操作をトレースできる「セッション・リプレイ」と呼ばれるスクリプトを大手ウェブサイトの多くが使用しており、人々が考えているよりも、よりディープな情報が第三者により収集されていることが明らかになりました。
No boundaries: Exfiltration of personal data by session-replay scripts
https://freedom-to-tinker.com/2017/11/15/no-boundaries-exfiltration-of-personal-data-by-session-replay-scripts/
Over 400 of the World's Most Popular Websites Record Your Every Keystroke, Princeton Researchers Find - Motherboard
https://motherboard.vice.com/en_us/article/59yexk/princeton-study-session-replay-scripts-tracking-you
2013年、Facebookはユーザーが最終的に「投稿」ボタンを押さずに終わったテキスト入力に関してもデータを収集していることが明らかになり、批判の声があがりました。しかし、このような追跡行動はFacebookに限ったことではなく、多くのウェブサイトやウェブサービスが行っているところ。トラフィックの多い有名サイトのいくつかでは、入力フォームにユーザーがデータを入力すると、たとえデータの送信が行われなくても内容が記録されるケースがあると研究者らは発見しました。うっかりコピーペーストしてしまった私的な文書もすべてウェブサイト側に把握されてしまうわけです。
Facebook self-censorship: What happens to the posts you don’t publish?
http://www.slate.com/articles/technology/future_tense/2013/12/facebook_self_censorship_what_happens_to_the_posts_you_don_t_publish.html
上記のような追跡行動は「Session replay(セッション・リプレイ)」と呼ばれるスクリプトで可能になるもの。一般的にセッション・リプレイはユーザーがどのようにウェブサイトを使用しているのかを把握するためのものですが、どのようにブラウザを操作したのかを完全に記録することも可能です。全てのページにセッション・リプレイが埋め込まれているとまではいかないものの、医療記録やパスワードといった繊細な個人情報を扱うページでも使われていると研究者らは発表しています。
セッション・リプレイがどのようなものかは以下のムービーから見ることが可能。左側のブラウザで行った操作が、右側のブラウザで完全再現されています。
user replay fullstory demo - YouTube
個人情報の収集方法の中には「ユーザーを匿名として個人情報を集める」というものもありますが、FullStoryという会社が提供するセッション・リプレイのソフトウェアは、インターネット上の行動とユーザー個人を結びつけることができます。なお、FullStoryはMotherboardの取材に対して回答を行っていません。
研究者らが調査したところ、世界のトップウェブサイト5万件のうち、FullStory、SessionCam、Clicktale、Smartlook、UserReplay、Hotjar、Yandexという7社のセッション・リプレイのソフトウェアを使用していたウェブサイトは482件存在したとのこと。この中には通販サイトの「Bonobos」や投資信託の販売・運用を行う「Fidelity Investments」が含まれますが、一方でウェブサイト側は全てのユーザーの情報を逐一記録するわけではないので、実際には482件という数字は過小評価である可能性もあります。研究者がウェブサイトを訪れた時にはたまたまセッション・リプレイが非アクティブであった可能性もあるためです。
482件のウェブサイトのリストは以下から見ることが可能。MicrosoftやSkype、Spotifyなど大手ウェブサービスの名前が並んでいます。なお、「セッション・リプレイのスクリプトを埋め込んでいても、デベロッパーがセッションレコーディング機能を無効にしている可能性があり、必ずしもウェブサイトがセッションの記録を行っているわけではない」と研究者によって記されています。
Site list
https://webtransparency.cs.princeton.edu/no_boundaries/session_replay_sites.html
研究結果が発表されたあと、Bonobosなど数社はセッション・リプレイのスクリプトの使用を停止すると発表しています。WIREDの取材に対し、Bonobosは「プロトコルやオペレーションを査定するためFullStoryとデータを共有することをストップさせました。我々はカスタマー情報を保護するためにしばしばシステムやプロセスを評価・強化しています」と語りました。
「サードパーティが提供するセッション・リプレイによって医療記録やクレジットカード情報といった個人情報を収集することは、サードパーティーに情報を漏えいするという事態を引き起こす可能性がある」と研究者らは指摘。本来、パスワードなどの情報は追跡対象から除外されるのですが、偶然パスワードがデータとして記録されてしまうこともしばしば起こるそうです。会社によってはユーザーが入力した内容を全て記録の対象外としているところもありますが、中には入力内容を部分的に記録しないタイプのソフトウェアもあり、うっかりパスワード情報が漏れてしまうこともありうるわけです。
そして、入力内容が記録されずとも、ブラウザ上に表示された内容から情報が流出するということもあります。実際に研究者らが試したところ、FullStoryのスクリプトを使用し、かつ入力内容を追跡しないウェブサイトでも、ユーザーの名前や病状、処方箋といった情報を拾うことができたといいます。
by Ludovic Toinel
また、セッション・リプレイのソフトウェアを提供するサービスがハッキングを受けた場合の危険性についても専門家らは指摘。ウェブサイトの運営側が集めたデータはインターネット上のダッシュボードでプレイバックできますが、いくつかの企業のダッシュボードは暗号化されていないHTTPページとなっている点が懸念されています。
過去には世界の有名サイト1000のうち約半数が何らかの追跡ソフトウェアを使ってユーザーの行動をモニタリングしているという調査内容が発表されており、セッション・リプレイのスクリプトに限らず、ユーザーが想像しているよりはるかに多くの情報が他者に渡っている可能性があるわけです。セッション・リプレイによる追跡から逃れるための方法として、研究者らはAdBlock Plusの使用などを挙げています。
・関連記事
Appleの販売業者がユーザーの個人情報を勝手に売りさばいていたことが明らかに - GIGAZINE
Yahooの全ユーザー30億人分のアカウント情報が漏洩していたことが明らかに - GIGAZINE
100万件以上のGoogle・Yahooアカウントのパスワードがダークウェブ上で販売されている - GIGAZINE
SNSの本人認証マークがブラックマーケットで販売されている - GIGAZINE
あなたの情報をブラウザがどれぐらい収集できてしまうのかを見せてくれる「webkay」 - GIGAZINE
・関連コンテンツ