(プリンストン大学)オンライン・トラッキング100万サイトの計測と分析

Categories
< Back
You are here:
Print

(プリンストン大学)オンライン・トラッキング100万サイトの計測と分析

オンライン・トラッキング 100万サイトの測定と分析は、これまでで最大かつ最も詳細なオンライン・トラッキングの測定である。ステートフルstateful (クッキーベース)とステートレスstateless (フィンガープリントベース)のトラッキング、ブラウザのプライバシーツールの効果、そして「クッキーの同期」を測定している。

この測定は、私たちのウェブ測定ツールOpenWPMによって実現されている。OpenWPMは、本格的で計測可能なブラウザを使用して、完全に自動化されたウェブクロールを可能にする成熟したプラットフォームである。

概要
著者 プリンストン大学 Steven EnglehardtとArvind Narayanan ({ste,arvindn}@cs.princeton.edu)

本研究は、プリンストン大学のWebTAPプロジェクトの一環として行われた。

トラッキング結果

オンライントラッキングのロングテール

The long tail of third parties found on first party sites

ファーストパーティのサイトで見つかったサードパーティのロングテール
2016年1月に実施した上位100万サイトの測定では、われわれのツールは9,000万回以上のリクエストを行い、ウェブトラッキングの研究に使用された(われわれの知る限りで)最大のデータセットを構築した。この規模であれば、ウェブトラッキングに関する多くの疑問に答えることができる。誰が最大のトラッカーなのか?最も多くのトラッカーがいるのはどのサイトか?どのようなトラッキング技術が使用されているのか、誰が使用しているのか、などなど。

調査結果


少なくとも2つのファーストパーティに存在するサードパーティの総数は81,000以上だが、その数はすぐに減少する。この81,000のうち、1%以上のサイトに存在するのは123のみ。これは、一般ユーザーが日常的に遭遇するサードパーティの数が比較的少ないことを示している。異なるサードパーティが同じ企業によって所有されている可能性があることを考慮すると、この効果はさらに大きくなる。上位5社のサードパーティはすべて、また上位20社のうち12社はGoogleが所有するドメインである。実際、Google、Facebook、Twitter は、サイトの 10% 以上に存在する唯一のサードパーティである。

サードパーティと HTTPS の採用

Causes of mixed-content warnings on the top 1M sites
上位 100 万サイトにおけるコンテンツ混在の警告の原因

安全なサイトに読み込まれた安全でないサードパーティのリソース(すなわち、HTTPS サイト上の混合コンテ ンツ)は、ブロックされるか、ブラウザにセキュリティ警告を表示させる。多くのサードパーティ(54%)が、HTTP でしか読み込まれないことがわかった。HTTP デフォルトのサイトのかなりの部分(26%)は、HTTP のみのサードパーティのうち少なくとも 1 社のリソースをホームページに埋め込んでいる。これらのサイトは、ブラウザがユーザーに混合コンテンツのエラーを表示することなしにHTTPS にアップグレー ドすることができず、その大部分(92%)はブロックされるアクティブコンテンツを含んでいる。

現在、約 78,000 のファーストパーティ・サイトが、ホームページでデフォルトの HTTPS をサポートしている。そのうちの8%は混合コンテンツの警告が表示され、そのうちの12%はサードパーティのトラッカーが原因である。

ニュースサイトのトラッカー数が最も多い

The variance of trackers across the alexa categories
alexaのカテゴリごとのトラッカーのばらつき

ウェブサイトのカテゴリーによって、トラッキングのレベルは大きく異なる。右の図は、各カテゴリーのトップサイト100件について、サイトごとのトラッキングおよび非トラッキングのサードパーティの平均数を示している。

なぜこれほどまでに差があるのか?アダルトカテゴリーを除いて、低い値を示しているのは、政府機関、大学、非営利団体に属するサイトだ。これは、ウェブの外部に資金源があるために、ウェブサイトが広告やトラッキングを回避できる可能性を示唆している。高いレベルにあるサイトは、主に編集コンテンツを提供しているサイトだ。これらのサイトの多くは、記事を無料で提供しており、外部の資金源を持たないため、かなり多くの広告でページビューを収益化する必要に迫られている。

トラッキング防止機能は有効か?

ユーザーがトラッキングにさらされる機会を減らすには、主に2つの方法があります。ブラウザに組み込まれたプライバシー機能と、GhosteryやuBlock Originなどの拡張機能である。1つはGhosteryを有効にしてトラッカーをブロックする設定、もう1つはFirefoxのサードパーティークッキーブロッカーを有効にして、異なるブロックツールを有効にした上位55kサイトという2つのテスト測定を行った。

調査結果

Firefox のサードパーティークッキーブロックは非常に効果的で、サイトのランディングページ以外のドメインからサードパーティークッキーが設定されているのは、わずか 237 サイト (0.4%) だった。これらのほとんどは、米国外のサイトの米国版へのリダイレクトなど、良心的な理由によるものだ。しかし、例外もいくつかあり、そのうちの32件はIDクッキーを含んでいたた。これらのサイトは、ランディングページを意図的に別のドメインにリダイレクトしてから、最初のドメインにリダイレクトしているように見えた。Ghosteryは、サードパーティの数とIDクッキーの数の両方を減らすのに効果的だった。サードパーティークッキーの平均数は17.7個から3.3個に減少し、そのうちサードパーティークッキーはわずか0.3個だった(ID付きは0.1個)。

フィンガープリント認証の結果

上位サイトでのフィンガープリント用スクリプトの存在

Presence of fingerprinting scripts on the top sites
デバイス・フィンガープリンティングの増加(および多様性)。


4種類のデバイス・フィンガープリンティングを検証する。2014年の調査で得られた最新のキャンバスフィンガープリントの測定結果を提供する。また、これまで測定されたことのない3つの技術についての調査結果も紹介する。AudioContextフィンガープリントCanvas-FontフィンガープリントWebRTCフィンガープリントである。右の表は、Alexa上位100万人の中の異なるサイトランクにおいて、各技術が登場するサイトの割合を示したものだ。

キャンバスフィンガープリンティング

Example canvas image from a fingerprinting script
フィンガープリントスクリプトのキャンバスイメージの例



HTML Canvasは、Webアプリケーションがリアルタイムにグラフィックを描画するためのもので、カスタムcanvas要素に図形、円弧、テキストを描画する機能を備えている。フォントのレンダリング、スムージング、アンチエイリアスなどのデバイスの機能の違いにより、デバイスによって画像の描き方が異なる。これにより、描画されたピクセルをデバイスのフィンガープリントの一部として利用することができる。左の画像は、フィンガープリント用スクリプトで使用されるキャンバス画像の代表例である。

調査結果

約400の異なるドメインから読み込まれたスクリプトが原因で、14,371のサイトでキャンバスのフィンガープリンティングが確認された。今回の結果を、2014年にKU Leuvenの研究者と共同で行った調査結果と比較すると、3つの重要な傾向が見られた。1つ目は、この研究に続く世論の反発によって、最も著名なトラッカーがおおむね使用を中止しており、調査が効果的であったことを示唆している。第二に、この手法を採用しているドメインの数が全体的に大幅に増加していることから、この手法に関する知識が広まっていること、また、無名のトラッカーほど世間の評価を気にしていないことがわかる。第3に、フィンガープリンティングの許容範囲に関する広告業界の自主規制基準に沿って、用途が行動追跡から不正検知に移行したことだ。

キャンバスフィンガープリントを利用しているサイトの一覧表 フルスクリプトリス(tsv)

AudioContextのフィンガープリンティング

Examples of two AudioContext configurations
2つのAudioContext構成の例


フィンガープリンティングの技術は、通常、単独で使用するのではなく、相互に組み合わせて使用する。トラッキングスクリプトの異常な動作(新しいAPIの使用など)を調べると、AudioContextとその関連インターフェースを利用するいくつかのフィンガープリンティングスクリプトが見つかった。これらのスクリプトを手動で分析したところ、トラッカーはAudio APIを利用して複数の方法でユーザーのフィンガープリントを取得しようとしていることがわかった。

右の図は、今回の調査で見つかった2つの異なるAudioNodeの構成を示している。どちらの構成でも、オシレーターによってオーディオ信号が生成され、その結果得られた信号が処理後にハッシュ化されて識別子が作成される。これは、デバイスのマイクへのアクセスを必要とせず、生成された信号の処理方法の違いを利用している。Audio APIフィンガープリントのテストは、こちらのデモページで行うことができる。

調査結果

合計で、67のサイトに存在するわずか3つのスクリプトで、右図のようなタイプのAudioContextフィンガープリントが見つかった。これらのスクリプトのうち2つだけが、この技術を積極的に使用しているようだった。フィンガープリントの安定性と独自性については、今後の調査が必要だ。

Full list of Local IP Discovery scripts Full script list (tsv) »

WebRTCのローカルIP検出

WebRTCは、ブラウザ上でピアツーピアのリアルタイム通信を行うためのフレームワークで、Javascriptでアクセスできる。ピア間の最適な経路を発見するために、各ピアは、ローカルネットワークインターフェース(イーサネットやWiFiなど)からのアドレスやNATのパブリックサイドからのアドレスなど、利用可能なすべての候補アドレスを収集し、ユーザーからの明示的な許可なしにウェブアプリケーションに公開する。フィンガープリンターは,これらのアドレスを利用してユーザーを追跡することができる。

調査結果

上位100万サイトのうち715サイトで、ローカルIPアドレスの検出にWebRTCが使用されていることがわかった。これらの事例の大部分は、サードパーティのトラッカーによって引き起こされていた。

Full list of Local IP Discovery scripts » Full script list (tsv) »

キャンバスフォントのフィンガープリンティング

JavascriptとFlashは、ブラウザ内のフォントを列挙し、ユーザーのフィンガープリントに利用されてきた。HTML Canvas API は、特定のブラウザにインストールされているフォントを推測するための第 3 の方法を提供する。canvas レンダリング インターフェースは measureText メソッドを公開しており、canvas に描画されたテキストの結果の幅を提供する。スクリプトは、多数のフォントを使用してテキストを描画し、その結果の幅を測定することができる。テキストの幅がデフォルトのフォントを使用したテキストの幅と等しくない場合(ブラウザにテスト済みのフォントがインストールされていないことを示している)、スクリプトはブラウザにそのフォントがインストールされていると判断できる。

調査結果

今回の調査では、3,250のファーストパーティサイトでキャンバスベースのフォントフィンガープリントが確認された。フォントフィンガープリントイベントの大部分は1社のサードパーティ(MediaMath)が担当していたが、他にも合計5社のサードパーティがこの技術を使用していることが判明した。

Full list of sites using Canvas-Font Fingerprinting » Full script list (tsv) »

OpenWPMを使用した研究

OpenWPMを使用した研究のリストは、こちらのページをご覧ください。


データ


データはbzip圧縮されたPostgreSQLのダンプファイルとして提供されている。すべてのデータセットで使用されているスキーマファイルは、こちらで入手できる。

データセットデータセットのコメント
100万サイト ステートレスParallel Stateless Crawl
100k Site StatefulParallel Stateful Crawl — 10,000 site seed profile
10k Site ID Detection (1)Sequential Stateful Crawl — Flash enabled — Synced with ID Detection (2)
10k Site ID Detection (2)Sequential Stateful Crawl — Flash enabled — Synced with ID Detection (1)
55k Site Stateless with cookie blockingParallel Stateless Crawl — Firefox set to block all third-party cookies
55k Site Stateless with GhosteryParallel Stateless Crawl — Ghostery extension installed and set to block all possible trackers
55k Site Stateless with HTTPS EverywhereParallel Stateless Crawl — HTTPS Everywhere installed


コード


OpenWPM クローリング・インフラストラクチャの公開リポジトリは GitHub にある。プリンストン・ウェブ・センサスのコードは現在公開されていないが、プロジェクトの将来的な反復において公開される予定である。


連絡先
Steven Englehardt ste@cs.princeton.edu
Arvind Narayanan arvindn@cs.princeton.edu

出典:https://webtransparency.cs.princeton.edu/webcensus/

Table of Contents