案例研究 —— 旗舰

Signal

把合规建进请求路径——一层面向 AI 辅助的政府数据的治理。

在线演示 ↗在 GitHub 查看 ↗

状态

在线 · v1.14

测试

128 项通过

辖区

SA + NYC

开放数据集

~1,900

PythonFastAPIPydantic v2NumPySciPyModalDockerLLMEU AI ActDTA v2.0GitHub Actions

问题所在

从 2026 年 6 月 15 日起，AI 治理在整个澳大利亚公共服务部门成为强制要求。数字化转型署（DTA）的《政府负责任地使用 AI 的政策》（2.0 版）要求每个机构指定问责官员、维护一份在管 AI 用例的登记册、发布 AI 透明度声明，并开展 AI 用例影响评估——其中强制的影响评估须在 2026 年 12 月 15 日前完成。欧盟《人工智能法案》在此之上再加风险分级与可追溯性，而《1988 年隐私法》（联邦）的改革则为自动化决策增设一项披露义务。

这些规则容易认同，却难以真正满足。大多数团队把记录当作文书工作——事后、当审计员来问时才拼凑出来的东西。一旦你细看，它就站不住脚，因为你所需的事实在决策做出的那一刻最为新鲜，而它们很快衰减。是哪个模型版本作的答？确切的数据窗口是什么？在结果发出之前，真有人核查过那处异常吗？一个月后再去重建，你就是在猜。

它做什么

Signal 是我做的一个小产品，用来检验一个不同的想法：让合规记录成为「作答」的副产品，而非一项单独的任务。如果系统不写下记录就无法作答，那么记录便永远不会缺失。

你向它提一个问题——过去十八个月阿德莱德的盗窃趋势如何——它便返回一段由真实数字支撑的平实语言摘要：趋势方向及其是否具有统计显著性、环比与同比变化、季节性模式、一段短期预测、最主要的犯罪类别，以及任何异常到需标记复核的月份。它在两个辖区上运行——南澳警方与纽约市警察局——走的是同一条受治理的路径；支撑南澳数字的那个门户还发布着约 1,900 个开放数据集，Signal 可对其进行搜索、趋势分析与制图。每一次查询都受治理。

每个答案都带着一个决策 id。通过一个公开端点，该 id 可解析为一条完整的审计记录，于是任何人都能把任一答案追溯到生成它的模型、为它提供依据的数据，以及是否需要人来过目。审计轨迹不是一个隐藏的日志文件——它是产品中你看得见、点得开的一部分。

设计

它的核心是一个模块，一份决策日志：一个为「AI 辅助决策」定义的带类型模式，外加一个只追加的写入器，把每条决策按一行写进一个纯文本文件。没什么花哨的——你可以用 grep 读它，或直接载入 pandas。

重要的抉择在于把日志记录放在哪里。在 Signal 里，分析器在物理上不可能在不先写下审计记录的情况下返回一个答案。这两步在请求路径中被焊在一起。不存在一条「回答了用户却忘了记录」的代码路径，因为作答就是记录。合规不再是一项人们必须记得去做的纪律，而成为系统的一种属性。

核查 AI，而不只是记录它

摘要由一个语言模型依据计算出的数字来措辞，绝不取自原始数据。这引出审计员最先会问的问题：你怎么知道模型没有编造一个数字？在摘要送到任何人面前之前，Signal 会拿它与统计结果逐一核对。这项核查是确定性的，且无需再次调用模型：摘要里的每个数字都必须出现在计算出的数中，而描述趋势的那句话不能与计算出的方向相矛盾。

未通过的摘要会被拒绝，由那个朴素的确定性版本顶替送出，而这次拒绝会被写进同一份审计日志。每个答案都带着一个忠实度评分，你可以在结果上和审计轨迹中看到它；一张实时的模型卡片报告平均分以及模型被推翻的频率。模型获准为答案措辞。但它从不被信任去发明一个答案。

值得信赖的统计

百分比变化是个好标题，却是个糟糕的结论。一个郊区的盗窃可以比上月下降百分之十，却仍毫无异常之处，因为月度计数本就会自行游走。所以分析器不止步于百分比——它追问这一变动是否真实。

它运行一个 Mann-Kendall 检验——在月度序列中检查趋势的标准方法，它不对数据是否形态规整作任何假设，并返回一个 p 值——于是答案可以说“这一下降具有统计显著性”或“这在正常波动范围内”，而不必让读者去猜。一个 Sen 斜率从所有两两斜率的中位数估计趋势有多陡，因而一个反常的月份无法把这条线扳歪，而且它附带一个置信区间。一个季节性分解把反复出现的摆动从底层趋势中分离出来，当数据不足两整年时会被标为「指示性」而非「已定」；一段短期预测以一个逐渐变宽的预测区间投射出未来数月。

这些都不是装饰。每个数字都在语言模型措辞之前算出，每一个都经过忠实度检验，每一个都写进审计日志。在仪表板上，同样这些数字呈现为一个预测锥、一张「月 × 年」的季节性热力图，以及答案旁的一段简短统计解读。

对应到 DTA 政策

DTA 政策要的不是自由文本。它要的是具体的产物，而 Signal 从同一份日志里生成每一项，而非另起一摊文书工作。

问责官员与用例负责人

每一次决策都记录下谁负责——复核者、官员、机构。按每次部署配置，所以一个真实的机构看到的是它自己的名字。

在管 AI 用例登记册

日志就是登记册。一个实时端点按用例把它汇总：多少次决策、风险等级、需要人工复核的占比，以及负责的复核者。永不过时，因为它是从产品正在做出的决策中算出来的。

AI 透明度声明

直接从日志生成——在用的是什么 AI、用于何事、基于什么数据、风险类别、人工监督，以及公众如何能追溯任一答案。是生成的，而非手写的，所以它不可能与系统实际所为发生偏离。

AI 用例影响评估

2026 年 12 月起强制；Signal 现在就生成它，每个用例一份。谁受影响、有哪些风险、有哪些保障、公平性方面的考量、残余风险——引用实时的忠实度评分与人工复核率，而非套话。

对欧盟《人工智能法案》而言，一个风险等级字段把每次决策标记为「极小」「有限」「高」或「不可接受」，并把高风险用途标出以便额外监督。还有三条规则就装在分析器本身：它只看到聚合数据，所以没有任何个人记录进入系统；一个统计上反常的月份会自动置上人工复核标志；而每一次地区之间的比较都附带一条平实的公平性说明——这些是原始计数，而非比率，一处差距既可能反映真实的犯罪，也同样可能反映人口、报案或警务。

为什么是这份数据

我在南澳警方做数据分析师，所以我特意选了同一领域的数据。它让治理问题保持具体。犯罪统计正是那种敏感的、关乎公共利益的数据，对它而言“这个 AI 辅助的答案是怎么得出的”是一个有真实后果的真问题，而非假设。

这份数据也教了我一些东西。南澳警方在统计期中途更改了罪行分类，于是“盗窃及相关罪行”变成了简单的“盗窃”。一条跨越那次更改的趋势，本会断裂成两条互不相关的序列。处理它意味着搭建一个小小的协调层，把新旧两套词汇都映射到同一个稳定的方案上，并以同样的方式应用于实时数据与捆绑的快照。那种不声不响的分类法工作，才是真正的公共部门数据工程的大部分实质。

接下来我会做什么

诚实地讲，界限在于面向真实机构的完整加固：身份认证、一个持久的审计存储，以及问责官员字段背后一个真实的负责人，而非一个可配置的占位符。探索器对非常大的数据集也是按行数上限抽样，而非整体扫描，产品会在结果里明白说出这一点。这些是接下来要做的工作，而非已经完成的事。

要点

不要把治理在最后才硬栓上去，再指望人们去填表。把它接进工作本就要走的那条路径，让记录自己写下自己，并让登记册与透明度声明从同一份记录里自然落出。一条你得记着去保留的合规轨迹，终将被你遗忘。一条系统离了它就无法运作的轨迹，才是你真正能信赖的——也是你能在规则生效那天拿给监管者看的。