(EFF)ブラウザのバージョンごとに、平均10.5ビットの識別情報を搭載

Categories
< Back
You are here:
Print

(EFF)ブラウザのバージョンごとに、平均10.5ビットの識別情報を搭載

テクニカル分析 by Peter Eckersley2010年1月27日
この記事は、現代のウェブにおけるユーザー追跡についてのシリーズのパート3です。パート1とパート2もお読みください。

あなたがWebページを閲覧するたびに、あなたのブラウザは「User Agent」ヘッダーをWebサイトに送信し、あなたがどのOSやWebブラウザを使用しているかを正確に伝えます。これらのバージョンは人によって大きく異なることが多いため、この情報はインターネットユーザーを識別するのに役立ちます。私たちは最近、この情報が人の追跡にどの程度利用できるかを調べる実験を行いました(例えば、誰かがブラウザのクッキーを削除した場合、ユーザーエージェントだけでも、あるいは他の詳細情報と組み合わせても、サイトがその人を認識して古いクッキーを再作成するのに十分な独自性があるかどうかを調べます)。

これまでの実験では、ブラウザのUser Agentの文字列には、通常5~15ビットの識別情報が含まれていることがわかりました(平均で約10.5ビット)。つまり、平均して約1,500人に1人(210.5人)しかあなたと同じUser Agentを持たないということです。これだけでは、クッキーを再作成して人を完全に追跡するには不十分ですが、特定の郵便番号へのジオロケーションや、一般的ではないブラウザのプラグインがインストールされているなど、別の詳細情報と組み合わせることで、ユーザーエージェントの文字列は文字通りプライバシー問題となります。

ユーザーエージェント。トラッキングツールとして機能するブラウザの特徴の一例

ウェブユーザのプライバシーを分析するとき、通常はユーザアカウント、Cookie、IPアドレスに注目します。これらは、ウェブサーバへのリクエストが他のリクエストと関連付けられたり、個々の人間、コンピュータ、ローカルネットワークにリンクされたりするための一般的な手段だからです。

インターネットを利用する際にプライバシーを向上させるための典型的なアドバイスとしては、Cookie(およびsupercookie)をブロックまたは削除することや、プロキシサーバーやTorのようなツールを使用してIPアドレスを隠すことなどが挙げられます。

ユーザーエージェントが、固有のトラッキングクCookieと同様のリスクをもたらすことは、直感的にはわかりません。結局のところ、Cookieは、ウェブサイトが個々のブラウザを区別して認識するために設計されたものですが、ユーザーエージェントはそうではありません。そして、あなたと同じブラウザとOSを使っている人が、世の中に何百万人もいるかもしれません。しかし、この問題をもっと詳しく調べてみましょう。典型的なUser Agentの文字列は、次のようなものです。

Mozilla/5.0 (Windows; U; Windows NT 5.1; ja-US; rv:1.9.1.3) Gecko/20090824 Firefox/3.5.3 (.NET CLR 3.5.30729)
実際、テスト期間中にEFFのウェブサイトにアクセスしたブラウザの中で、このユーザーエージェント文字列が最も多く見られました。これは、Windows XP上で動作するFirefox 3.5.3です。オペレーティングシステムとブラウザのバージョンが極めて具体的で、ユーザーエージェントにはユーザーの優先言語も含まれていることに注目してください。この文字列の中には様々なものが含まれており、これらの変化を利用して、ウェブを閲覧している人を識別し、追跡することができます。

ユーザーエージェントの識別可能性に関するこれまでの結果

EFFのウェブサイトへの36時間にわたる匿名のリクエストサンプルの中で、User Agentの文字列がどの程度識別されるかを正確に測定する実験を行いました。次の表は、さまざまなクラスのブラウザと、そのクラス内のベストケースと平均ケースのユーザーエージェントのビット数を示しています。

様々なクラスのブラウザにおける識別情報

このデータセットには、いくつかの注目すべき事実があります。まず、ユーザーエージェント文字列の識別能力の高さに驚かされます。10.5ビットは、インターネットユーザーを識別するために必要な全情報の約3分の1です。

また、ユーザー数が非常に多く、そのために隠れることのできる群衆が多いはずのWindowsやMicrosoft Internet Explorerと比較して、市場での普及率が低いFirefoxやUbuntuなどのプラットフォームは、平均して同等かそれ以下の識別力しかないというのも驚きです。これは、EFFのウェブサイトの訪問者が後者のグループの割合が多いこともあるかもしれませんが、Internet Explorerのユーザーエージェント文字列のバリエーションが非常に多いことが大きな要因であることも明らかになっています。

Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30618)

ここにある異なるライブラリやコンポーネントのバージョンはすべて、基本的に部分的なトラッキングトークンとして機能します。

私たちはPanopticlickというプロジェクトを立ち上げ、この分析をユーザーエージェントからブラウザのプラグインや設定空間全体に拡張する新しいデータセットを収集しています。Panopticlickを使ってご自身のブラウザの独自性を測定することができ、同時にEFFのプライバシー調査活動にも貢献することができます。

調査方法

2009年9月、私たちはeff.orgのウェブサーバへの匿名化されたリクエストの36時間のサンプルを取りました。そして、各ブラウザから伝達された識別情報の量を算出しました。識別情報は「エントロピーのビット数」で測定され、その情報がどれだけ大きな群衆の中であなたを識別するかを表しています。ブラウザは通常、5~15ビットの識別情報を伝えており、平均では約10.5ビットです。10ビットの識別情報があれば、210人あるいは1024人の群衆の中からあなたを選ぶことができます。10.5ビットの識別情報があれば、1448人弱の群衆の中から人を識別することができます。

私たちはクッキーなどを使用してリピーターと新規訪問者を区別していないため、識別情報のビット数の測定値は上限と下限の間に位置しています[1]。

1.一方の上限値は、ハッシュ化された各IPアドレスが1回のリクエストに対してのみカウントされる場合であり、もう一方の上限値は、各ヒットを固有のブラウザとして扱う場合です。ほとんどすべての場合、ブラウザに関連する識別情報の真の量は、この2つの値の間にあるはずです。

出典:https://www.eff.org/deeplinks/2010/01/tracking-by-user-agent

Table of Contents