差分隐私 — rin.contact

一个核心的张力，贯穿于任何处理关于人的数据的工作：你想发布一些有用的东西——计数、平均、趋势—— 却不透露关于数据里任何一个个体的任何信息。几十年来，答案都是「把它匿名化」：去掉名字，发布其余。我们如今确凿地知道，匿名化行不通——而差分隐私（DP）是那个严谨的、数学化的替代品，是第一个真正能顶住一个铁了心的攻击者的隐私定义。

这是一个我直接在意的话题，因为负责任地发布汇总统计——一名政府分析师的家常便饭——正是 DP 为之而建的东西。这一页是那个实用的想法：为什么旧办法失败了、「满足差分隐私」精确地意味着什么、交付它的噪声机制，以及那个你逃不掉的权衡。

匿名并不匿名

「只要去掉标识符」的致命缺陷是通过链接重新识别。即便没有名字，几个看似无害的字段的组合——一个像邮编 + 出生日期 + 性别这样的准标识符——往往对某一个人是唯一的，并且可以与一个公开数据集匹配，把名字放回去。

那些警示性的案例很著名：Latanya Sweeney 仅用那三个字段，就从「匿名化的」医院数据里重新识别出一位州长的医疗记录；研究者把 Netflix 发布的评分与公开的 IMDb 评论匹配，去匿名化了它们；AOL 「匿名化的」搜索日志被追溯到了真实的人。教训残酷而普遍：你无法靠涂抹来匿名化丰富的数据，因为数据本身就为人打下指纹。需要一个根本不同的办法。

为什么 k-匿名力有不逮

第一个认真的尝试是 k-匿名：泛化或抑制准标识符，直到每一条记录都与至少 $k-1$ 条其他记录无法区分（这样就没人孤零零地站着）。它很直观、也有帮助——但它有真正的窟窿。如果一个 k-匿名组里的每个人都共享同一个敏感值（比方说，都得了同样的诊断），你就在不单挑出任何人的情况下，得知了组里每个人的那个值（同质性攻击）。而它的保证，在一个带着你没料到的旁侧信息的攻击者面前蒸发了。

更深的问题是，k-匿名是已发布的表的一个性质，并且只对你想到的那些攻击进行推理。你想要的，则是关于过程的一个保证，它对任何带着任何旁侧知识的攻击者都成立——而这正是 DP 所提供的。

差分的想法

差分隐私彻底重构了这个问题。它问的不是「这个输出匿名吗？」，而是：这个输出，会不会因为任何单独一个人在不在数据集里而发生可察觉的改变？如果一个查询的结果，无论你被包含还是被排除都基本相同，那么这个结果就不可能透露太多关于你本人的信息——你的存在是无法被察觉的。

Epsilon 与隐私预算

形式化的定义让「几乎不变」变得精确。一个机制 $M$ 是 $\varepsilon$ -差分隐私的，如果对任何两个相差单独一个人的记录的数据集 $D$ 与 $D'$ ，以及任何可能的输出 $S$ ：

\Pr[M(D) \in S] \;\leq\; e^{\varepsilon} \cdot \Pr[M(D') \in S]

参数 $\varepsilon$ （epsilon）是隐私预算，它是那个掌管一切的旋钮。一个小的 $\varepsilon$ 意味着两个概率必须近乎相等——强隐私，因为加上或去掉一个人几乎不改变输出的分布。一个大的 $\varepsilon$ 允许更大的差异——更弱的隐私。它是一个货真价实的预算：你每回答一个关于数据的查询，就花掉它的一部分，而一旦它花光，进一步的查询就会侵蚀那个保证，所以你必须把它在你发布的一切之间精打细算地分配。

怎么做到：校准的噪声

你如何让一个查询满足那个定义？你给答案加上精心校准的随机噪声。想发布一个计数？算出它，然后在发布之前，加上一个从 拉普拉斯（或高斯）分布中抽出的随机量。

差分隐私机制。真实答案被算出，然后在发布之前，被刻意地用校准到隐私预算 ε 的随机噪声模糊掉。加噪后的答案在汇总层面仍然有用，同时藏起了任何一个人的贡献。

噪声的量被调到两样东西上：隐私预算 $\varepsilon$ ，以及查询的敏感度——一个人能把结果改变多少（一个人最多把一个计数改变 1，所以计数只需很少的噪声；一笔收入之和可能摆动很大，所以它需要更多）。神奇之处在于，噪声大到足以掩盖任何单独一个个体的贡献，然而——在一个大数据集上——会平均掉，所以汇总保持准确。关键地，DP 还可组合：多个查询的保证以可预测的方式累加，而这正是让预算记账行得通的东西。

隐私-效用权衡

没有免费的午餐，而 DP 对此诚实得令人耳目一新：更多的隐私意味着更多的噪声，意味着更低的准确度。为了强隐私把 $\varepsilon$ 往下压，你发布的数字就变得更吵、更没用；为了准确的数字把它抬高，你就削弱了保护。这个隐私-效用权衡是整个领域核心的、不可避免的张力。

DP 给你的，不是逃离这个权衡，而是明确地量化并选择它的能力——把 $\varepsilon$ 定为一个深思熟虑的、可辩护的政策决定，而非碰运气。美国人口普查局为 2020 年的普查采用了 DP（用了一个相当大的 epsilon，那本身就是一个公开的、有争议的选择），而苹果和谷歌用它来收集使用统计，却不收集个体的原始行为。

噪声加在哪里：本地对全局

有两个地方可以加噪声，而这个选择反映了你信任谁：

全局（中心化）DP——一个受信任的管理者持有真实数据、运行查询，并给输出加噪声。同样的隐私只需更少的噪声（更准确），但你必须把原始数据托付给那个管理者。
本地 DP——每个人的数据在离开他们的设备之前就被随机化了，所以连收集者也从未见过真相。那个玩具式的直觉是随机化回应：为了调查一个敏感的是/否问题，每个应答者偷偷掷一枚硬币、有时随机作答——个体是可推诿的，然而真实的比例在汇总层面是可恢复的。更强的信任模型，但它需要多得多的噪声。（这就是苹果/谷歌所用的。）

它在我工作中的体现

发布统计而不暴露人

从敏感数据中发布汇总统计，是政府分析师工作的一个日常部分，而这一页就是对「发布它安全吗？」的严谨回答。它改变的第一件事是那个本能：去掉标识符是不够的——通过链接重新识别是真实存在的，所以安全必须来自过程，而非来自指望数据是匿名的。DP 是你做出一个能顶住一个带着外部知识的攻击者的发布的方式。

而隐私-效用权衡把它重构为一个明确的、可辩护的选择：设定 $\varepsilon$ 是一个关于用多少准确度去换多少保护的政策决定，公开地做出，而非出于意外。它是数据治理（政策）与公平（欠数据里的人的另一份责任）的技术补充——合在一起，就是处理关于人的数据而不伤害他们的工具包。

60 秒回顾

匿名化会失败——通过链接重新识别（像邮编+出生日期+性别这样的准标识符； Sweeney、Netflix、AOL）。你没法靠涂抹通往隐私。
k-匿名有帮助但会破（同质性攻击、未知的旁侧信息）。它对表、而非过程进行推理。
差分隐私：输出会不会因为任何一个人在或不在而改变？如果不会，你就受到保护——隐私是算法的一个性质。
$\varepsilon$ 是隐私预算：小 ε = 强隐私 + 更多噪声；它在多个查询之间被花掉（可组合性）。
机制：加校准的噪声（拉普拉斯/高斯），调到 ε 和查询的敏感度上。掩盖个体，在汇总层面平均掉。
不可避免的隐私-效用权衡（2020 普查、苹果/谷歌）。全局 DP（受信任的管理者，更少噪声）对本地 DP（在设备上随机化，更多噪声）。

重新识别的案例、ε/预算的定义、噪声机制，以及本地对全局的区分，反映了当前的差分隐私参考文献以及亲身的工作。