/knowledge/differential-privacy
差分隐私
你可以发布关于一个总体的有用统计,却不暴露其中任何一个个体——但唯有借助一个精确的、数学化的隐私定义才行。去掉名字从来都不够;这才是真正管用的东西。
- 学于
- 差分隐私与隐私保护分析实务 · 安全地共享数据
- 时间
- 政府分析 · 持续进行
- 应用于
- 负责任地发布统计
- 阅读 / 复习
- 约 15 分钟阅读2026-06-26
一个核心的张力,贯穿于任何处理关于人的数据的工作:你想发布一些有用的东西——计数、平均、趋势—— 却不透露关于数据里任何一个个体的任何信息。几十年来,答案都是「把它匿名化」:去掉名字,发布其余。 我们如今确凿地知道,匿名化行不通——而差分隐私(DP)是那个严谨的、 数学化的替代品,是第一个真正能顶住一个铁了心的攻击者的隐私定义。
这是一个我直接在意的话题,因为负责任地发布汇总统计——一名政府分析师的家常便饭——正是 DP 为之而 建的东西。这一页是那个实用的想法:为什么旧办法失败了、「满足差分隐私」精确地意味着什么、交付它的 噪声机制,以及那个你逃不掉的权衡。
01
匿名并不匿名
「只要去掉标识符」的致命缺陷是通过链接重新识别。即便没有名字,几个看似无害的字段 的组合——一个像邮编 + 出生日期 + 性别这样的准标识符——往往对某一个人是唯一的, 并且可以与一个公开数据集匹配,把名字放回去。
那些警示性的案例很著名:Latanya Sweeney 仅用那三个字段,就从「匿名化的」医院数据里重新识别出 一位州长的医疗记录;研究者把 Netflix 发布的评分与公开的 IMDb 评论匹配,去匿名化了它们;AOL 「匿名化的」搜索日志被追溯到了真实的人。教训残酷而普遍:你无法靠涂抹来匿名化丰富的 数据,因为数据本身就为人打下指纹。需要一个根本不同的办法。
02
为什么 k-匿名力有不逮
第一个认真的尝试是 k-匿名:泛化或抑制准标识符,直到每一条记录都与至少 条其他记录无法区分(这样就没人孤零零地站着)。它很直观、也有 帮助——但它有真正的窟窿。如果一个 k-匿名组里的每个人都共享同一个敏感值(比方说,都 得了同样的诊断),你就在不单挑出任何人的情况下,得知了组里每个人的那个值(同质性攻击)。而它的 保证,在一个带着你没料到的旁侧信息的攻击者面前蒸发了。
更深的问题是,k-匿名是已发布的表的一个性质,并且只对你想到的那些攻击进行推理。你想 要的,则是关于过程的一个保证,它对任何带着任何旁侧知识的攻击者都 成立——而这正是 DP 所提供的。
03
差分的想法
差分隐私彻底重构了这个问题。它问的不是「这个输出匿名吗?」,而是:这个输出,会不会因为 任何单独一个人在不在数据集里而发生可察觉的改变?如果一个查询的结果,无论你被包含还是 被排除都基本相同,那么这个结果就不可能透露太多关于你本人的信息——你的存在是无法被 察觉的。
04
Epsilon 与隐私预算
形式化的定义让「几乎不变」变得精确。一个机制 是 -差分隐私的,如果对任何两个相差单独一个人的记录的数据集 与 ,以及任何可能的输出 :
参数 (epsilon)是隐私预算,它是那个掌管 一切的旋钮。一个小的 意味着两个概率 必须近乎相等——强隐私,因为加上或去掉一个人几乎不改变输出的分布。一个大的 允许更大的差异——更弱的隐私。它是一个货真价实的预算:你每回答一个关于数据的查询,就花掉它的一部分,而一旦它花光,进一步的查询就会 侵蚀那个保证,所以你必须把它在你发布的一切之间精打细算地分配。
05
怎么做到:校准的噪声
你如何让一个查询满足那个定义?你给答案加上精心校准的随机噪声。想发布一个 计数?算出它,然后在发布之前,加上一个从 拉普拉斯(或高斯)分布中抽出的随机量。
噪声的量被调到两样东西上:隐私预算 ,以及查询的敏感度——一个人能把结果改变多少(一个人最多把一个计数改变 1,所以计数只需很少的 噪声;一笔收入之和可能摆动很大,所以它需要更多)。神奇之处在于,噪声大到足以掩盖任何单独一个 个体的贡献,然而——在一个大数据集上——会平均掉,所以汇总保持准确。关键地,DP 还可组合:多个查询的保证以可预测的方式累加,而这正是让预算记账行得通的东西。
06
隐私-效用权衡
没有免费的午餐,而 DP 对此诚实得令人耳目一新:更多的隐私意味着更多的噪声,意味着更低 的准确度。为了强隐私把 往下压,你发布的数字就 变得更吵、更没用;为了准确的数字把它抬高,你就削弱了保护。这个隐私-效用权衡是 整个领域核心的、不可避免的张力。
DP 给你的,不是逃离这个权衡,而是明确地量化并选择它的能力——把 定为一个深思熟虑的、可辩护的政策决定,而非碰运气。美国 人口普查局为 2020 年的普查采用了 DP(用了一个相当大的 epsilon,那本身就是一个公开的、有争议的 选择),而苹果和谷歌用它来收集使用统计,却不收集个体的原始行为。
07
噪声加在哪里:本地对全局
有两个地方可以加噪声,而这个选择反映了你信任谁:
- 全局(中心化)DP——一个受信任的管理者持有真实数据、运行查询,并给输出加噪声。同样的隐私只需更少的噪声(更准确),但你必须把原始数据托付给那个管理者。
- 本地 DP——每个人的数据在离开他们的设备之前就被随机化了,所以连收集者也从未 见过真相。那个玩具式的直觉是随机化回应:为了调查一个敏感的是/否问题,每个应答者 偷偷掷一枚硬币、有时随机作答——个体是可推诿的,然而真实的比例在汇总层面是可恢复的。更强的 信任模型,但它需要多得多的噪声。(这就是苹果/谷歌所用的。)
08
它在我工作中的体现
09
60 秒回顾
重新识别的案例、ε/预算的定义、噪声机制,以及本地对全局的区分,反映了当前的差分隐私参考文献 以及亲身的工作。