/knowledge/explainable-ai
可解释 AI 与可解释性
一个准确、却说不出为什么的模型,在它的决定影响到一个人的那一刻,就成了一个问题。可解释性是这样一门学科:从一个黑箱里取出一个理由——并且知道那个理由何时可以被信任。
- 学于
- 可解释 AI 与可解释性实务 · 可辩护的决定
- 时间
- 政府分析 · 持续进行
- 应用于
- 为模型的判断辩护
- 阅读 / 复习
- 约 15 分钟阅读2026-06-26
最准确的模型——提升的集成与深度网络——也是最不透明的。它们给出一个答案,却不 附带理由。在赌注低时这没问题,而在输出影响到一个人的生活的那一刻——一笔贷款、一项福利、一场 调查、一个风险分数——就成了一个严重的问题。可解释 AI(XAI)是这样一门学科:从一个 黑箱里撬出一个人能理解的理由——并且,同样重要地,知道那个理由何时是真实的、何时是一个令人安慰的 虚构。
这是一个我直接在意的话题,因为在任何须问责的环境里,一个你解释不了的决定,就是一个你辩护不了的 决定。这一页是那片实用的地景:为什么解释要紧、产生它的那些工具(特征重要性、LIME、SHAP、 反事实),以及那个关键的告诫——一个解释本身也可能误导人。
01
为什么一个理由要紧
可解释性不是最后才拴上去的锦上添花;它一次服务于好几个具体的目的:
- 信任——人们(理所应当地)不会照一个他们不理解的推荐去行动。
- 调试——一个解释会揭示出一个模型何时是因为错误的原因而对(那个著名的案例: 一个分类器检测的是雪、而非那只动物)。
- 问责——当一个决定影响到某人时,他们应得一个理由,而法律也越来越同意这一点 (一项「解释权」)。
- 公平——解释正是你抓住一个模型依赖了它不该依赖之物的方式,是通往公平问题的门户。
02
准确度-可解释性权衡
这个领域核心那个令人不适的张力:作为通则,一个模型越强大,它就越不可解释。一个线性回归确切地告诉你每个特征如何推动 预测;一个 500 棵树的梯度提升模型则准确得多、也不透明得多。你往往没法同时拥有最高的准确度和 完全的透明。
有两种宽泛的应对,而对的那个取决于赌注。要么从一开始就用一个本质可解释的模型 (为透明接受一些准确度代价),要么用那个黑箱、之后再施加事后解释工具去解读它。 赌注越高、问责的要求越强,第一个选项就越值回它的票价。
03
玻璃箱模型
通往一个解释最简单的路,是用一个本身就是那个解释的模型。这些本质可解释的(「玻璃箱」)模型,把它们的推理穿在表面上:
- 线性 / 逻辑回归——每一个系数都是对一个特征效应的直接、可读的陈述。
- 一棵单独的决策树——一张你可以照字面跟着走的规则流程图。
- 规则列表——「如果 X 且 Y 那么 Z」,透明到不能更透明。
有一个强有力的论点——由 Cynthia Rudin 这样的研究者有力地提出——认为对于高赌注的决定,你应当偏向一个本身就可解释的模型,而根本不要去拿一个黑箱加一个事后解释,因为那个 解释也许并不忠实地反映模型实际做了什么。有时候,黑箱那一点点准确度的增益,不值得损失货真价实的 透明。
04
全局对局部的解释
当你确实需要解释一个黑箱时,第一个区分是问题的范围:
- 全局——模型整体如何行为?哪些特征在它所有的决定中最要紧?
- 局部——模型为这个个案做出这一个预测,是为什么?
这个区分要紧,因为一个被某决定影响的人想要一个局部解释(「为什么我的申请被 拒了?」),而一个审计员或开发者想要那个全局的图景。不同的工具服务于各自。
05
特征重要性——及其陷阱
最常见的全局解释是特征重要性:一个关于模型最依赖哪些输入的排名。它是一个有用的 初看——但它带着尖锐的陷阱。在相关的特征下,重要性可能在它们之间被任意地分摊 或错误归因,于是一个真正重要的因子看起来很弱(或反过来)。而且重要性告诉你一个特征要紧,却不告诉你它往哪个方向推、或对谁。把一个原始的重要性排名当作一个起始 假设,而非一个结论。
06
LIME 与 SHAP:解释单个预测
解释任何黑箱的局部的两个主导工具:
- LIME(局部可解释、模型无关的解释)——为了解释一个预测,它用那个个案周围的小 变动去探测模型,并拟合一个简单的、可解释的模型(一个局部的线性近似),去就在那里模仿那个黑箱。直观,但解释可能不稳定——重跑一遍,你可能得到一个略有不同的说法。
- SHAP(Shapley 加性解释)——当前的标准。它从合作博弈论借来 Shapley 值,把一个预测的「功劳」公平地分给各个特征:把每个特征当作一名玩家,它计算每一个在 所有可能的组合上的平均贡献。结果有理论根基且一致,并且——很巧妙地——既给出局部归因 (为什么是这个个案),又通过聚合给出一个全局视图。
两者都是模型无关的——它们把模型当作一个黑箱、从外面解释它,所以它们对从随机 森林到神经网络的任何东西都管用。SHAP 的一致性保证让它成了认真工作的默认选择,尽管它在计算上 更沉重。
07
反事实解释
对一个人而言,最有用的解释往往不是一串特征权重,而是对「什么本该不一样?」的一个 回答。一个反事实解释会说:「你的贷款被拒了;要是你的收入再高 5,000 美元,它本会 被批准。」它可操作、直观,并且绕开了暴露模型内部的需要——你只需展示那个让决定翻转的、最接近的 输入版本。对接收这个解释的那个人来说,那常常是真正帮得上忙的解释。
08
当解释误导时
整个领域里最重要的告诫:一个解释本身就是一个模型,而它可能是错的。事后方法是 对黑箱所做之事的近似——而非真品——而那道缝隙制造出真实的危险:
09
它在我工作中的体现
10
60 秒回顾
全局/局部的区分、SHAP 对 LIME 的比较,以及「解释可能误导」的告诫(还有偏向可解释模型的论点), 反映了当前的 XAI 参考文献以及亲身的工作。