(mullvad)商業的な大規模監視:収集されたデータを匿名化することはできない

メインコンテンツへスキップ
Categories
< Back
You are here:
Print

(mullvad)商業的な大規模監視:収集されたデータを匿名化することはできない

テック大手がユーザーのインターネット上の行動に関する膨大なデータを収集する際、彼らは常に「単なるメタデータに過ぎない」や「情報は匿名化済みだ」といった言い訳に逃げ込む。

テック大手が人々のデータを収集する際、彼らには2つの定番の言い訳がある。1つ目は「メタデータに過ぎない」というものだ。つまり、2人の間の実際の会話(実際には収集しているのだが)や、(彼らから見れば)具体的な情報は収集していないのだから問題ない、と言っているわけだ。しかし、この記事で説明した通り、メタデータは人の人生を地図化することと同義だ。その次に、彼らはたいていこう言う。「データは匿名化済みだ」と。そして、IPアドレスの数字を置き換えたり、単に非表示にしたりする方法について語る。あるいは、特定の個人と結びつけられる可能性のある他の情報を削除したと説明する。しかし、データブローカーについて読めば、誰にでも、いわゆる「ユーザーの再識別」を行うために、情報を結びつけるのは極めて簡単だと気づくだろう。

なぜなら、十分なデータを収集すれば、それを匿名に保つことは不可能だからだ。そして、テック大手企業のビジネスモデル全体がビッグデータに基づいている以上、あなたのインターネット上の行動は間違いなくあなたという個人と結びつけられることになる。例えば、複数の異なるデータベースにアクセスしてそれらを照合できれば、人々の匿名性を非常に短時間で破ることが可能だ。Netflixが50万人の匿名ユーザーによる1,000万件の映画評価データを公開した際、その実証として、テキサス大学の研究者チームは、評価内容や投稿日時をIMDbに公開されている評価データと比較するだけで、そのうちの何人かを特定することに成功した。もう一つの例を挙げよう。ワシントン州が匿名患者の医療データを1件50ドルで売却した際、ハーバード大学の研究者たちは、記録の一部と事故や暴力犯罪に関するニュース記事を照合することで、そのうちの数人の氏名を特定することができた。

データポイントが1つか2つしかない場合、個人を特定するのは難しい。しかし、より多くのデータにアクセスできるようになれば、古典的な絞り込み手法を用いて、情報の背後にいる人物を突き止めることができる。暗号学者でありセキュリティの専門家であるブルース・シュナイアーは、著書『Data and Goliath』の中で、好例を挙げている。FBIは、異なるIPアドレスから匿名のメールを送信しているある人物を特定する必要があった。IPアドレスを調べたところ、それらはすべて異なるホテルのものであることが判明した。その人物は、メールを送信するたびにホテルを変えるよう細心の注意を払っていた。しかしFBIがすべきことは、各ホテルの顧客記録を調べることだけだった。メールが送信された時期に、これらすべてのホテルにチェックインした人物はいないか? 多くの宿泊記録を調べるまでもなくリストは1人に絞り込まれた。

研究では、個人を特定するのに多くのデータポイントは必要ないことが度々示されている。匿名の人物が訪れた複数の場所にアクセスできる場合、最も手っ取り早い方法は位置情報の利用だ。考えてみてほしい。職場には何百人もの人がいるかもしれないが、あなたと同じスーパーで買い物をする人は何人いるだろうか?この2つの条件に一致する人は、おそらく数人程度だろう。データポイントをさらにいくつか追加すれば、特定は完了する。英国とベルギーの大学の研究者たちは、わずか15の人口統計学的属性があれば、匿名リスト上の99.98%の人物を特定できるとする手法を発表した。別の研究グループは、場所と時間が含まれていれば、たった4つのデータポイントだけで個人の95%を特定できると述べている。さらに別の研究では、研究者らが3ヶ月分のクレジットカードの利用明細を分析し、場所と時間に関する4つのポイントさえあれば、10人中9人を特定するのに十分であると結論付けた。

ウェブブラウザを起動した瞬間に、私たち一人ひとりについてどれだけのデータが収集されるかを考えれば、そのデータを利用(そして匿名化を解除)したい者にとって、場所や時間のパラメータを使う必要すらほとんどない。ブルース・シュナイアーが挙げている例の一つに、研究者が65万7000人のユーザーの検索履歴を調査したケースがある。合計で2000万件の検索が含まれており、その情報は、彼らが言うように、匿名化されていた。各検索リストには番号だけが紐付けられていた。しかし、異なるデータを相互に関連付けることで、研究者たちは番号を名前と置き換えることができた。繰り返すが、あなたのインターネット上の行動は詳細に追跡され、記録されている。排除法を使えば、候補をあなた一人に絞り込むのに時間はかからない。

https://mullvad.net/ja/why-privacy-matters/collected-data-cant-be-kept-anonymous

Table of Contents