机器学习中的公平与偏差

一个机器学习模型从数据中学习模式——而如果那些数据反映的是一个不公平的世界，模型就学会那份不公平、并把它复制出来，更快、更便宜，还裹着一层数学客观性的外衣，让它更难被质疑。算法偏差不是一个假设：风险评估工具、招聘筛选、放贷模型，全都被证明会系统性地区别对待一群群的人。机器学习中的公平是检测并减少那个的技术学科——而它真的很难，原因让大多数人吃惊：「公平」有好几个精确的定义，而你没法同时满足它们全部。

这一页紧挨着数据治理页——那一页是政策与伦理；这一页是机械：偏差如何进入、如何测量公平、核心那个数学上的不可能，以及你可以在哪里干预。它在任何模型辅助的决定影响到人之处都要紧，而在政府的环境里，这差不多就是重点所在。

有后果的偏差

这里的「偏差」一词，不是指建模页里那种偏差-方差——它指的是对一群人的系统性不公平，通常是由一个受保护属性（种族、性别、年龄、残障）所界定的一群。危险很具体：一个模型一致地、大规模地把它学到的偏差施加出去，施加给每一个人、瞬间完成，却看起来中立。一个有偏的人类决策者影响他遇到的人；一个有偏的模型可以影响数百万人，并且难争辩得多，因为「算法这么说的」带着虚假的权威。

偏差如何进入

偏差很少来自一个心怀恶意的建模者。它通过数据和框定渗进来，大多是看不见的：

历史偏差——数据忠实地记录了一个本就不平等的世界。一个在「以前谁被录用了」上训练的招聘模型，把过去的偏见学得仿佛它们是才能。
代表性偏差——某些群体被采样不足，所以模型对他们运作得更差（带着人的赌注的覆盖问题）。
测量偏差——标签本身就是一个有缺陷的代理。「再次被捕」与「犯了罪」不是一回事，但一个在逮捕数据上训练的模型，学到的是警务模式，而非犯罪。

贯穿其中的主线：模型是有偏数据的一面准确的镜子。垃圾进，偏差出——而模型接着把它放大、并使之根深蒂固。

代理陷阱：你没法只是删掉那个变量

那个直觉性的第一个修法——「干脆别把种族或性别给模型」——行不通，而弄懂为什么，是这一页上单一最重要的想法。受保护属性几乎总是通过代理变量，冗余地编码在其他特征里。

代理陷阱。移除受保护属性（种族）并不移除它的影响——邮编、姓名、学校、消费模式全都与它相关，所以模型从它的代理变量重建出受保护属性，偏差照样流过。

邮编与种族相关；名字透露性别；你上过的学校、你的消费模式、你的措辞——它们中任何一个，都能让一个模型重建出那个它从未被给过的受保护属性，并从后门进行歧视。这就是为什么公平没法靠视而不见来达成；你必须主动地测量各群体之间的结果、并干预，这意味着这份分析绝非简单。

定义「公平」：那些指标

要修好公平，你必须先定义它——而有好几个合理的、彼此竞争的定义。主要的群体公平准则：

人口平价——每个群体以相同的比率得到正面结果（各群体间相等的批准率），无关其他任何东西。
机会均等——在那些真正应当得到正面结果的人当中，每个群体以相同的比率被捕获（相等的真阳性率）。
均等几率——更严格：各群体间相等的真阳性和假阳性率。

每一个都编码了一个不同的、可辩护的公平观念——而麻烦恰恰从这里开始，因为它们可以彼此拉扯。

不可能性结果

这是这个领域核心那个深刻而发人深省的事实：当各群体有不同的基础率时，你无法同时满足所有的公平准则。这是一个数学上的不可能（由 Chouldechova、以及 Kleinberg 及同事们形式化），而非一个工程上的缺口——校准、相等的假阳性率、相等的假阴性率，无法同时成立，除非基础率完全相同、或模型完美。

在哪里干预

一旦你选定了一个公平定义、并测量了那个差距，缓解可以在流水线的三个阶段行动：

预处理——在训练之前修数据：给代表不足的群体重新加权、重新采样，或变换特征，以在源头减少那个差距。
处理中——把公平建进训练本身，给目标函数加上一个公平约束或惩罚，好让模型同时优化准确度和公平（例如对抗性去偏）。
后处理——事后调整模型的输出，例如用群体特定的阈值来拉平所选的指标。

没有一个是银弹，而每一个都拿一些准确度、或一个公平观念，去换另一个——这就是为什么公平工作与解释（你必须看见模型在做什么）、以及一个有记录的、可辩护的关于「你接受了哪个权衡、为什么」的决定，密不可分。

它在我工作中的体现

公平，并且能证明它

任何为关于人的决定提供依据的模型，都担着这份责任，而在政府里它很尖锐：一个对某一群人系统性地更差的模型辅助判断，不只是一个技术缺陷，而是一次公平与问责的失败。这给我的最有价值的东西，是知道那个代理陷阱——丢掉一个敏感属性并不让一个模型变公平，因为它会从邮编和其余的一切重建出它——所以公平必须被跨群体地测量，而非假定。

而不可能性结果诚实地重构了整场对话：不存在一个客观上「公平」的模型，所以真正的工作是选择哪一个公平准则适合这个语境、把那个权衡大声说出来、并能为它辩护—— 正是那种不该被藏在一个算法里面的价值判断。它直接连到可解释性（你审计不了你看不见的公平）、特征工程（代理变量住的地方），以及治理（围绕它的政策）。

60 秒回顾

一个在有偏的世界上训练的模型学会并放大那份偏差——大规模地，带着虚假的权威。这里的「偏差」= 对一个受保护群体的不公平，而非偏差-方差。
偏差通过历史、代表性、测量偏差进入——数据映照出一个不平等的世界。
代理陷阱：删掉种族/性别没用——邮编、姓名等会把它重建出来。公平需要跨群体的测量，而非视而不见。
公平指标：人口平价（相等比率）、机会均等（相等 TPR）、均等几率（相等 TPR + FPR）——而它们彼此竞争。
不可能性结果：在不同的基础率下你没法同时满足全部（COMPAS——双方都是对的）。公平是一个价值选择，而非一次优化。
在预处理 / 处理中 / 后处理缓解——每一个都拿准确度、或另一个公平观念去权衡。把选择记录下来。

代理/冗余编码陷阱、群体公平指标、不可能性结果，以及 COMPAS 案例，反映了当前机器学习公平性的参考文献以及亲身的工作。