Howdy! How can we help you?
-
EFF_自己防衛マニュアル8
-
気候変動1
-
ブラウザ8
-
戦争8
-
ヘイトスピーチ8
-
偽情報、誤情報8
-
ジェンダー3
-
国家安全保障8
-
fediverse8
-
alternative_app8
-
デジタルセキュリティツール8
-
国内の監視社会化と反監視運動7
-
VPN8
-
GIFCT2
-
政府・国際機関の動向8
-
スパイウェア8
-
OS関係8
-
教育・学校8
-
監視カメラ8
-
労働現場の監視8
-
プライバシー8
-
デジタルID(マイナンバーなど)8
-
GPS2
-
AI8
-
オリンピックと監視社会7
-
文化8
-
労働運動8
-
リンク集8
-
金融監視3
-
COVID-19と監視社会8
-
検閲8
-
海外動向8
-
オンライン会議システム8
-
暗号化8
-
アクティビストとセキュリティ8
-
ビッグテック、大量監視8
-
SNSのセキュリティ8
-
共謀罪1
-
メールのセキュリティ8
-
Articles1
(CDT)AIポリシーの根底にあるもの
AIポリシーの根底にあるもの
研究者のAI利用データへのアクセスに向けて
ガブリエル・ニコラス
2024年8月
はじめに
椅子は座るためのものだ。時計は時を告げるためのものである。これらのモノを見ることは、その主な用途を理解することである。つい最近まで、AIはほとんどの場合、同様のテクノロジーであり、デザインと使用は密接に結びついていた。顔認識システムは顔を認識し、スペルチェッカーはスペルをチェックする。しかし今日では、強力な「トランスフォーマー・モデル」の出現により、ひとつのAIアプリケーションを、詩を書いたり、履歴書を評価したり、鳥の種類を特定したり、病気を診断したりと、(少なくとも外見上は)無数の目的に使用することができるようになった。可能なユースケースが広がるにつれて、潜在的なリスクも広がっている。プロパガンダや子どもの性的画像の生成といった悪意のあるものから、誤解を招くような選挙情報や健康情報の提供といった不注意なものまで、今やその範囲は多岐にわたる。
こうした進歩に伴い、企業や政府はAIを新たなシステムや領域に急速に組み込もうとしている(Knight, 2023)。これを受けて、政策立案者はAIのリスクを軽減し、潜在的な利益を最大化するために、AIの規制に躍起になっている。これは、米国だけでも数十の連邦法案案、少数の州法とさらに数百の州法案、過去最長の行政命令、規制ガイダンスの氾濫など、政治の慌ただしい動きとなって表れている。
しかし、新たな規制を設計する際、政策立案者は経験則に基づくジレンマに直面する。政策立案者は、人々や企業がこのシステムをどのように使用しているかという現実世界のデータにアクセスすることなく、AIを規制しなければならないのだ。ユーザーの行動が公開され、観測可能なデータ痕跡が残ることが多いソーシャルメディアやインターネットとは異なり、汎用AIシステムは、チャットボットのようなプライベートな1対1の対話を通じてアクセスされることがほとんどだ。AI企業はユーザーとのインタラクションデータを収集するが、プライバシー、セキュリティ、評判、競争や取引の秘密への懸念から、たとえ適格性を確認された研究者とも共有したがらない(Bommasani et al., 2024;Sanderson & Tucker, 2024)。 その代わりに、企業は研究者やその他の外部の関係者に、レッドチームなどの慣行を通じて、自社のシステムの脆弱性や有害なエラーを調査することを許している(Friedler et al.) これらの方法は、AIシステムが最悪のユースケースに使用されるのを防ぐのに役立つが、実世界でユーザーが経験する危害に関する実証的な洞察は得られない。
人々が汎用AIシステムをどのように使用するかについての利用可能な経験的情報が不足しているため、エビデンスに基づいたポリシーを策定することは極めて困難である。このユースケースの情報格差に対処するために、3つの方法が考えられるが、それぞれに利点と課題がある:
- データ提供。ユーザーは、AIシステムとのインタラクションに関するデータ(チャットログなど)を自発的に研究者と直接共有することができる(Sanderson & Tucker, 2024)。AI企業は、API、データポータビリティツール、「研究者とデータを共有する」オプションなど、このデータをサポートする技術ツールを構築することができる。研究者はまた、ユーザーが直接このデータを提供できるようにすることもできる。一般的にはブラウザの拡張機能を通じて、企業からの許可やサポートを必要とせずにできる。(Shapiroら、2021)。データ提供によるプライバシーの懸念はほとんどないが、データを提供する関心と技術的スキルを持つ人々が、AIユーザー全体を代表しているとは限らないため、サンプリングバイアスが生じる可能性がある(van Driel et al.)
- 透明性レポート。AI企業は、人々が自社のシステムをどのように使用しているかについてのデータを分析し、その結果を一般に公開することができる(Bommasani et al., 2024;Vogus & Llansó, 2021)。
- 企業は、保健医療や選挙などリスクの高い領域の専門家から、どのような情報が有益かについてフィードバックを求めることができる。この種の透明性レポートは、現在のホワイトハウスの自主的なコミットメントや世界中の同様の取り組みとは異なり、ユーザーの安全を守るための企業の取り組みを開示することに重点を置いている。透明性レポートは、プライバシーリスクはほとんどないが、その方法論や詳細が不透明で、企業の利益のために利用される可能性がある(Parsons, 2017)。
- ログデータへの直接アクセス。AI企業は、チャットログデータやユーザーと自社製品とのインタラクションに関するその他の情報へのアクセスを研究者に許可することができる。企業はこのアクセスを直接提供することもできるし、研究者に代わってクエリーを実行することで間接的に提供することもできる。また、企業は自発的にこの情報を提供することもできるし、法律で義務付けられる可能性もある(Lemoine & Vermeulen, 2023)。直接アクセスは重大なプライバシーリスクをもたらす。技術的な介入によってこれらのリスクは部分的に軽減されるかもしれないが、直接アクセスを正当化するほど十分に対処できないかもしれない。企業はさらに、直接データアクセスを許可することに抵抗するかもしれない。それは企業の評判を危険にさらすか、企業秘密を暴露する可能性があるからである。
本稿は3つのパートに分かれている。まず、ユースケースの情報格差について説明し、なぜそれを埋める必要があるのか、そしてそれを行うことにはどのような課題があるのかを述べる。次に、研究者がユースケース情報にアクセスできるようにするための3つのアプローチについて詳しく説明する。最後に、AI企業と法律家が、ユーザーのプライバシーを守りつつ、研究者、ひいては公衆に利益をもたらす方法で、これらのアプローチを実施する方法について提言を行う。
定義と範囲
私たちは特に、一般消費者向けの汎用AIアプリケーションのユースケース情報への研究者のアクセスに焦点を当てている。実際には、OpenAIのChatGPT、GoogleのGemini、AnthropicのClaudeなど、基盤モデル開発者によって構築されたチャットボットからのチャットログを共有することを意味する。本稿では、これらのシステムが最も重要であるため – 実際、間違いなくすでに注目されすぎている – に焦点を当てるのではなく、実用的な理由からである。
逆に言えば、本稿は、基礎モデル(GPT-4、Claude 3 Opus、Llamaなど)やモデルホスティングサービス(GPT-4 API、Stable Diffusion、Microsoft Azureなど)ではなく、AIアプリケーションに焦点を当てている。(Jones、2023)。LlamaやMistralのような「オープンソース」モデルのように、ファウンデーションモデルには、その使用を監視する中央集権的な主体があるとは限らない(Solaiman, 2023)。ホスティングサービスは理論的にはAIの利用を監視することができるが、ガバナンスと監視を技術的スタックより下位に移すことで、プライバシーに対する懸念が高まる(Donovan, 2019)。これは、本稿の範囲外ではあるが、独自の分析に値する。また、後者には本研究の範囲外の企業秘密に関する懸念が伴うため、本稿では企業間サービスではなく、消費者向けのAI製品に焦点を当てる。さらに、一般的なAIアプリケーションに焦点を当てているのは、それらのアプリケーションは、研究の精査に値する重大な社会的影響をもたらす可能性が高く、また、研究者が利用データを利用できるようにするために必要なインフラを構築するのに必要なリソースを有している可能性が高いからである。
最後に、この論文では「汎用AI」(GPAI)というコンセプトをEUのAI法から借用している。このAI法では、「大規模な 自律的管理(self-supervision)を用いて大量のデータで学習させた場合を含め、有意な汎用性を示し、モデルが市場に投入される方法に関係なく、広範で明確なタスクを有能に実行でき、様々な下流のシステムやアプリケーションに統合可能なAIモデル」と定義している(AI法第3条)。(AI法第3条44b)。この「汎用性」や「能力」といったコンセプトは議論の余地があるが、この論文では、カスタマーサービスのチャットボットのような狭い用途ではなく、幅広い領域をカバーするように設計された最先端のモデルの上に構築されたチャットボットアプリケーションに焦点を当てている。
「AIシステム」の定義が明確になったことで、私たちはユースケース情報の意味を明確にすることができる。この論文では、主にチャットログ、つまりユーザーからのメッセージのテキストやその他のメディアコンテンツとAIシステムの応答としてのユースケース情報に焦点を当てる。チャットログは、利用状況について何も明らかにしないため、限界がある。例えば、未払いの支払いを求めるメールを書くようチャットボットに依頼したユーザーは、そのテキストをフィッシング詐欺に利用したり、お金に関する同僚との気まずい会話をナビゲートするのに利用したりする可能性がある。後述するように、チャットログは非常に個人的な情報や個人を特定できる情報を暴露するリスクもあり、研究者から隠すのは困難である。
ユースケース情報には、データに関する情報であるメタデータを含めることもできる。メタデータには、タイムスタンプ、セッション識別子、AIシステムのバージョン、エラーログ、利用ポリシー違反、拒否などの会話自体の詳細や、応答の再生成やコンテンツへのフラグ付けなど、ユーザーが行ったその他のアクションが含まれる。 また、ユーザー識別子、デバイス情報、位置データなど、ユーザーに関する情報も含まれる可能性があるが、ユーザーの再識別のリスクが高いため、ユーザーに関する情報はこの論文の範囲外である。
レポート全文を読む。