(Markup) ディファレンシャル・プライバシーは国勢調査を救えるか?

Categories
< Back
You are here:
Print

(Markup) ディファレンシャル・プライバシーは国勢調査を救えるか?

Markupのメールニュース2021/5/15より訳出しました。

皆さん、こんにちは。
今日の世界では、匿名性がますます希薄になっています。道を歩いているとき、店で買い物をしているとき、デモに参加しているとき、インターネットを見ているときなど、かつては匿名でいられた公共の場が、今やテクノロジーを駆使して私たちを特定する場所となっています。
この問題は、米国国勢調査局にとって特に緊急性の高いものです。国勢調査局は、議会での平等な代表権を確保するという重要な目的のために、すべての住民の参加を必要としており、プライバシーの約束を利用して参加を促しています。同局では、参加者のデータを保護するために、職員に生データを開示しないことを生涯誓うことを義務付けるなど、徹底した対策を講じています。
しかし、コンピュータの能力がますます向上し、個人情報の大規模なデータセットが利用できるようになったことで、匿名であるはずのデータセットがますます再識別されるようになっている。
2016年、国勢調査局は、公開している表から情報を再識別できるかどうかを、”現代の最適化手法を比較的控えめな計算資源とともに適用して “検証した。その結果、国勢調査局は、米国人口の46%の地理、性別、年齢、民族を再構成することができました。さらに、それらの記録を商用データベースとリンクさせ、5,200万人以上の個人情報を再確認することができました。
この結果を受けて、米国連邦政府は「ディファレンシャル・プライバシー」と呼ばれる新しいアプローチを採用し、国民の保護を強化することにしたのです。今週のThe MarkupでTodd Feathersが報告しているように、この変更は議論を呼んでいます。多くの州や公民権団体が、国勢調査の質が損なわれ、この変更がマイノリティグループに不均衡な影響を与えていると主張しています。
ディファレンシャル・プライバシーとは何か、そしてそれはどのように機能するのか。今週、その考案者の一人であるシンシア・ドワークに話を聞きました。彼女は、ハーバード大学ポールソン工学部のコンピュータサイエンスのゴードン・マッケイ教授、ラドクリフ高等研究所のラドクリフ・アルムナイ教授、マイクロソフトリサーチの特別研究員を務めています。
このインタビューは、簡潔でわかりやすいように編集されています。
Cynthia Dwork
Cynthia Dwork
Angwinです。まず、最も基本的な質問から始めましょう。ディファレンシャル・プライバシーとは何でしょうか?
ドワークです。ディファレンシャル・プライバシーの英語での定義は、ディファレンシャル・プライベートな方法で行われた分析の結果は、個人がデータセットに参加するかしないかにかかわらず、基本的に同じであるということです。つまり、たとえその人が異常値であったとしても、少数の人の存在や不在によって、データの統計分析から得られる結論が変わることはないのです。
例えば、医療データセットがあり、このデータセットを研究した結果、喫煙が癌を引き起こすことが分かったとします。自分の人生に関するこの基本的な事実を他人に知られることで、損害を被る人がいるかもしれません。
喫煙していることが公になった喫煙者は、その結果、保険料が上がってしまうかもしれません。私たちは、データセットに特定の個人がいてもいなくても、喫煙が癌を引き起こすという基本的な事実を知ることができるようにしたいと考えています。ディファレンシャル・プライバシーはこの点を保証します。
ディファレンシャル・プライバシーは、データセットの統計的な教えによって母集団全体に生じる害と、データセットに参加するかしないかを選択することによって個人に生じる害とを切り離します。
アングウィン ディファレンシャル・プライバシーを開発した動機は、人々を保護し、より大きなデータセットに参加する自信を持たせるためだったのですか?
ドワーク:そのとおりです。まさにその通りです。人々を保護し、データに参加したことによる個人的な被害を心配することなく、重要な発見のために自分のデータが使われることを許可してもらいたい、というのが強い動機でした。
そして、私たちが強く感じたことの1つは、はみ出し者を保護することが重要だということです。
Angwin: あなたはディファレンシャル・プライバシーを発明したと言われています。それはどのようにして生まれたのですか?
ドワーク 私がプライバシーに強い関心を持つようになったのは、哲学者のヘレン・ニッセンバウムとの会話がきっかけでした。彼女はこう話していました。どこにでも監視カメラがある中で、公共の場でのプライバシーとはどういうものか?それは、彼女が文脈的整合性に関する素晴らしい研究を発表する前のことでした。
私は暗号学の分野で多くの仕事をしてきましたので、プライバシーの様々な側面はよく知っていましたが、社会学的なプライバシーの問題の中で、自分が本当に夢中になれるような、そして数学が何かできるような問題を見つけたいと思いました。
そこで私は、プライバシー保護のための統計解析の問題にたどり着きました。ある集団についての統計を,その集団に属するすべての人のプライバシーを本当に保持し,かつ証明可能な方法で算出するにはどうしたらよいか。
私はKobbi Nissimと接触しました。彼はIlit Dinurと一緒に、この設定でのプライバシーについて考えていましたが、非常に否定的な結果を出しました。大雑把に言うと,あまりにも多くの統計的クエリ(データベース)に対して正確な答えを出すと,プライバシーが完全に破壊されてしまうというものでした。彼らは、これがプライバシーを保護するデータ分析の死を告げるものだと考えました。
さて、コンピュータサイエンティストとして考えることの1つに、あるタスクを実行するためにどれくらいの計算量が必要か、ということがあります。
私は、約5億人のユーザーを持つHotmailのユーザーデータベースの規模で、プライバシーについて考えていました。5億人のユーザーがいるHotmailのユーザーデータベースの規模でプライバシーを考えていたのですが、5億回の問い合わせを誰にも気づかれずに行うことはできないと思いました。
コビーが私を訪ねてきたので、私は “質問を早めに切り上げて、あまり多くの質問に答えさせないようにしたらどうなるだろう?”と言いました。それが、後に「ディファレンシャル・プライバシー」と呼ばれる技術の始まりでした。ディファレンシャル・プライバシーの共同発明者は、全体で4人います。
アングウィンです。あなた、Nissim、Frank McSherry、Adam Smithの4人は、2006年にディファレンシャル・プライバシーに関する重要な論文を書きました。当時、大規模なデータセットにおけるプライバシーは、現実的な脅威ではなく、抽象的な問題のように思われましたが、今では一般的な関心事となっています。
ドワーク 私はこの問題を、すでに現実に起こっている問題であり、人々はそれを知らず、人々はそれに気づくだろうと考えました。
例えば、話し言葉を認識するための学習や、文字を入力しているときに文章を提案することができます。このような提案は、他の人のデータを分析して得られたものです。
そのため、産業界の仕事では差分プライバシーが重要になっています。iPhoneをお持ちの方なら、それが可能です。Appleが販売するすべてのデバイスに搭載されています。また、Chromeブラウザにも多用されています。マイクロソフトでは、Windowsの遠隔測定に使用されています。
Angwin。国勢調査局が差動的プライバシーを採用していることは、最近注目されています。先日「The Markup」でお伝えしたように、国勢調査局は、人々が国勢調査データに求める結果を得られるような形で、差分プライバシーを実装するのに苦労しています。この問題を解決するのは簡単なのでしょうか?
ドワークさん 国勢調査局がディファレンシャル・プライバシーの使用を決めたのは、2003年にDinurとNissimが考案した攻撃が、国勢調査の出版物に対しても可能であることに気づいたからです。
先に述べたように、あまりにも多くの統計を正確に推定すると、プライバシーが完全に破壊されてしまいます。そして、国勢調査では、3億800万人のデータをもとに、何十億もの統計データを公表しています。つまり、彼らは間違いなく「過剰に正確な数」のカテゴリーに入るのです。
そこで国勢調査は、十分な統計精度と十分なプライバシーを確保できる実装方法を模索しました。国勢調査では、「TopDownアルゴリズム」と呼ばれるアルゴリズムを開発しました。
ここで、差分プライバシーは特定のアルゴリズムではないことを強調したいと思います。あるタスクを差分プライバシー方式で実行する方法は数多くあり、それぞれプライバシーと精度のトレードオフが異なる場合があります。
国勢調査では、まず差分プライバシーを適用し、その後、後処理と呼ばれる作業を行います。この後処理では、差分プライバシーを適用した出力(一部は負の値になる可能性があります)を取り出し、すべての結果を強制的に非負の値にします。
この例を考えてみましょう。例えば、ある場所に500人が住んでいるという統計を発表したいとします。ディファレンシャル・プライバシーでは、その統計値にノイズが加わります。それは正の値かもしれないし、同じ確率で負の値かもしれません。それはランダムに選ばれます。
例えて言うと、完全に公平なコインを持っていて、このコインを1000回めくるとします。予想される頭の数は500個ですが、1000回めくったときには、500個より少し多いか、500個より少し少ないかのどちらかになります。しかし、平均すると500になります。
もし、500未満の結果が出るたびに、500と報告していたら、平均すると500にはならないので、偏った結果になってしまいます。これがTopDownのやり方です。
これは精度や偏りに悪い影響を与えます。統計的な意味では、生成されたカウントの期待値は実際のカウントとは等しくありません。
TopDownのエラーのほとんどは、後処理で発生しています。
もし彼らの手法について1つだけ変えられるとしたら、後処理を完全に放棄するか、真のdifferentially private noisyカウントを追加で公開してほしいと思います。
Angwin 数学的には、データにノイズを加えなくても、データベースへの問い合わせ回数を制限するだけで、プライバシーを守ることができるのでしょうか?
ドワーク:はい。Dwork: はい。プライバシーを守るためには、多少のノイズを加える必要がありますが、その影響ははるかに小さくなります。トレードオフの関係を考えるには、X線を例にとるのがよいでしょう。
医学研究者たちは、X線を浴びるとそれが蓄積され、最終的にはがんの原因となる線量になることを理解しています。そのため、画像を撮影する際には、「この画像のために累積被曝量を増やす価値があるのか」という疑問がつきまといます。
機密データセットでは、統計データを作成するたびに、プライバシーを侵害する放射線を少しずつ経験していることになります。線量は重要です。
非常に正確にしたいのであれば、それは高線量のようなものです。多くのプライバシーを失うことになります。もし、あまり正確ではない統計に耐えられるのであれば、投与量は少なくて済みます。
Angwin氏 大規模なデータセットからデータを再識別する研究者は、そのデータを商業的に入手可能な個人情報のデータセットと組み合わせることで再識別することがよくあります。もし、私たち全員に関する商業的なデータセットが小銭で手に入らない世界に住んでいたら、これは別の問題になるでしょうか?
ドワーク ディファレンシャル・プライバシーの1つの特徴は、将来にわたって保証されているということです。つまり、将来的に商業的に利用可能なデータセットから保護することができるのです。
しかし、私たちに関する膨大な量のデータがいたるところに存在しなければ、それに越したことはないでしょう。

いつもお読みいただきありがとうございます。
ありがとうございました。
ジュリア・アングウィン
エディター・イン・チーフ
ザ・マークアップ

Table of Contents