案例研究 —— 旗舰
Signal
把合规建进请求路径——一层面向 AI 辅助的政府数据的治理。
状态
在线 · v1.14
测试
128 项通过
辖区
SA + NYC
开放数据集
~1,900
问题所在
从 2026 年 6 月 15 日起,AI 治理在整个澳大利亚公共服务部门成为强制要求。数字化转型署(DTA)的《政府负责任地使用 AI 的政策》(2.0 版)要求每个机构指定问责官员、维护一份在管 AI 用例的登记册、发布 AI 透明度声明,并开展 AI 用例影响评估——其中强制的影响评估须在 2026 年 12 月 15 日前完成。欧盟《人工智能法案》在此之上再加风险分级与可追溯性,而《1988 年隐私法》(联邦)的改革则为自动化决策增设一项披露义务。
这些规则容易认同,却难以真正满足。大多数团队把记录当作文书工作——事后、当审计员来问时才拼凑出来的东西。一旦你细看,它就站不住脚,因为你所需的事实在决策做出的那一刻最为新鲜,而它们很快衰减。是哪个模型版本作的答?确切的数据窗口是什么?在结果发出之前,真有人核查过那处异常吗?一个月后再去重建,你就是在猜。
它做什么
Signal 是我做的一个小产品,用来检验一个不同的想法:让合规记录成为「作答」的副产品,而非一项单独的任务。如果系统不写下记录就无法作答,那么记录便永远不会缺失。
你向它提一个问题——过去十八个月阿德莱德的盗窃趋势如何——它便返回一段由真实数字支撑的平实语言摘要:趋势方向及其是否具有统计显著性、环比与同比变化、季节性模式、一段短期预测、最主要的犯罪类别,以及任何异常到需标记复核的月份。它在两个辖区上运行——南澳警方与纽约市警察局——走的是同一条受治理的路径;支撑南澳数字的那个门户还发布着约 1,900 个开放数据集,Signal 可对其进行搜索、趋势分析与制图。每一次查询都受治理。
每个答案都带着一个决策 id。通过一个公开端点,该 id 可解析为一条完整的审计记录,于是任何人都能把任一答案追溯到生成它的模型、为它提供依据的数据,以及是否需要人来过目。审计轨迹不是一个隐藏的日志文件——它是产品中你看得见、点得开的一部分。
设计
它的核心是一个模块,一份决策日志:一个为「AI 辅助决策」定义的带类型模式,外加一个只追加的写入器,把每条决策按一行写进一个纯文本文件。没什么花哨的——你可以用 grep 读它,或直接载入 pandas。
重要的抉择在于把日志记录放在哪里。在 Signal 里,分析器在物理上不可能在不先写下审计记录的情况下返回一个答案。这两步在请求路径中被焊在一起。不存在一条「回答了用户却忘了记录」的代码路径,因为作答就是记录。合规不再是一项人们必须记得去做的纪律,而成为系统的一种属性。
核查 AI,而不只是记录它
摘要由一个语言模型依据计算出的数字来措辞,绝不取自原始数据。这引出审计员最先会问的问题:你怎么知道模型没有编造一个数字?在摘要送到任何人面前之前,Signal 会拿它与统计结果逐一核对。这项核查是确定性的,且无需再次调用模型:摘要里的每个数字都必须出现在计算出的数中,而描述趋势的那句话不能与计算出的方向相矛盾。
未通过的摘要会被拒绝,由那个朴素的确定性版本顶替送出,而这次拒绝会被写进同一份审计日志。每个答案都带着一个忠实度评分,你可以在结果上和审计轨迹中看到它;一张实时的模型卡片报告平均分以及模型被推翻的频率。模型获准为答案措辞。但它从不被信任去发明一个答案。
值得信赖的统计
百分比变化是个好标题,却是个糟糕的结论。一个郊区的盗窃可以比上月下降百分之十,却仍毫无异常之处,因为月度计数本就会自行游走。所以分析器不止步于百分比——它追问这一变动是否真实。
它运行一个 Mann-Kendall 检验——在月度序列中检查趋势的标准方法,它不对数据是否形态规整作任何假设,并返回一个 p 值——于是答案可以说“这一下降具有统计显著性”或“这在正常波动范围内”,而不必让读者去猜。一个 Sen 斜率从所有两两斜率的中位数估计趋势有多陡,因而一个反常的月份无法把这条线扳歪,而且它附带一个置信区间。一个季节性分解把反复出现的摆动从底层趋势中分离出来,当数据不足两整年时会被标为「指示性」而非「已定」;一段短期预测以一个逐渐变宽的预测区间投射出未来数月。
这些都不是装饰。每个数字都在语言模型措辞之前算出,每一个都经过忠实度检验,每一个都写进审计日志。在仪表板上,同样这些数字呈现为一个预测锥、一张「月 × 年」的季节性热力图,以及答案旁的一段简短统计解读。
对应到 DTA 政策
DTA 政策要的不是自由文本。它要的是具体的产物,而 Signal 从同一份日志里生成每一项,而非另起一摊文书工作。
问责官员与用例负责人
每一次决策都记录下谁负责——复核者、官员、机构。按每次部署配置,所以一个真实的机构看到的是它自己的名字。
在管 AI 用例登记册
日志就是登记册。一个实时端点按用例把它汇总:多少次决策、风险等级、需要人工复核的占比,以及负责的复核者。永不过时,因为它是从产品正在做出的决策中算出来的。
AI 透明度声明
直接从日志生成——在用的是什么 AI、用于何事、基于什么数据、风险类别、人工监督,以及公众如何能追溯任一答案。是生成的,而非手写的,所以它不可能与系统实际所为发生偏离。
AI 用例影响评估
2026 年 12 月起强制;Signal 现在就生成它,每个用例一份。谁受影响、有哪些风险、有哪些保障、公平性方面的考量、残余风险——引用实时的忠实度评分与人工复核率,而非套话。
对欧盟《人工智能法案》而言,一个风险等级字段把每次决策标记为「极小」「有限」「高」或「不可接受」,并把高风险用途标出以便额外监督。还有三条规则就装在分析器本身:它只看到聚合数据,所以没有任何个人记录进入系统;一个统计上反常的月份会自动置上人工复核标志;而每一次地区之间的比较都附带一条平实的公平性说明——这些是原始计数,而非比率,一处差距既可能反映真实的犯罪,也同样可能反映人口、报案或警务。
为什么是这份数据
我在南澳警方做数据分析师,所以我特意选了同一领域的数据。它让治理问题保持具体。犯罪统计正是那种敏感的、关乎公共利益的数据,对它而言“这个 AI 辅助的答案是怎么得出的”是一个有真实后果的真问题,而非假设。
这份数据也教了我一些东西。南澳警方在统计期中途更改了罪行分类,于是“盗窃及相关罪行”变成了简单的“盗窃”。一条跨越那次更改的趋势,本会断裂成两条互不相关的序列。处理它意味着搭建一个小小的协调层,把新旧两套词汇都映射到同一个稳定的方案上,并以同样的方式应用于实时数据与捆绑的快照。那种不声不响的分类法工作,才是真正的公共部门数据工程的大部分实质。
接下来我会做什么
诚实地讲,界限在于面向真实机构的完整加固:身份认证、一个持久的审计存储,以及问责官员字段背后一个真实的负责人,而非一个可配置的占位符。探索器对非常大的数据集也是按行数上限抽样,而非整体扫描,产品会在结果里明白说出这一点。这些是接下来要做的工作,而非已经完成的事。
要点
不要把治理在最后才硬栓上去,再指望人们去填表。把它接进工作本就要走的那条路径,让记录自己写下自己,并让登记册与透明度声明从同一份记录里自然落出。一条你得记着去保留的合规轨迹,终将被你遗忘。一条系统离了它就无法运作的轨迹,才是你真正能信赖的——也是你能在规则生效那天拿给监管者看的。
Signal 是开源的,且已上线。