统计学：估计与推断

你永远无法看到整个总体。你拿到的是一个样本——数百万客户中的 1000 个、上个月的工单、回答了问卷的人——而你必须从这一小片中，对整体说出可信的结论。统计推断就是诚实地做到这一点的学问：从样本对总体下结论，并精确地说明这些结论有多不确定。

本页建立在概率论之上——它给了我们分布与中心极限定理——并把它反转过来。概率问「假设这枚硬币是均匀的，我会看到什么？」统计则问那个更难、也更有用的问题：「根据我所看到的，这枚硬币均匀吗？」

逆问题

区分这两个领域最干净的方式：概率从模型推向数据，统计从数据推向模型。

概率（正向）。已知模型 → 预测数据。「一枚均匀的骰子： P(连续两个六) = 1/36。」
统计（逆向）。观测数据 → 推断模型。「我连续掷出二十个六—— 这骰子均匀吗？」

逆向更难，因为许多模型都可能产生同样的数据，而随机性意味着即便是均匀的过程也会抛出奇怪的样本。所以推断从来不是关于确定性——而是量化数据应当在多大程度上改变你的结论，以及还剩下多少疑问。

样本与标准误

统计量是任何由样本计算出的数字——样本均值 x̄、一个比例、一个相关系数。解锁全部推断的关键认识是：统计量本身是随机的。换一个样本，你得到的均值就会略有不同。某个统计量在所有可能样本上的分布，就是它的抽样分布。

它的离散程度——你的估计在不同样本间跳动多少——就是标准误。对于样本均值，它随样本量的平方根而缩小：

\operatorname{SE}(\bar{x}) = \frac{\sigma}{\sqrt{n}}

这个 √n 是应用统计中最重要的事实之一：要把不确定性减半，你需要四倍的数据，而不是两倍。这正是为什么早期样本能快速改善估计、而后期样本几乎不再撼动它——也是为什么「多收集点数据就好」会急剧地边际递减。

均值的抽样分布随 n 增大而变窄。每条曲线都是 x̄ 在许多样本上的离散；n 翻四倍，标准误减半。

点估计

点估计是对未知总体值（一个参数）的单一最佳猜测——用样本均值来估计总体均值。我们用两个性质来评判估计量：

无偏——平均而言正确。在许多样本上，估计值围绕真实值居中，而不是系统性地偏高或偏低。
相合——随着样本增大，它收敛到真实值（大数定律在起作用）。

构建优良估计量的主力方法是最大似然估计（MLE）：选择让观测数据最可能出现的参数值。「既然我看到了这些数据，哪个模型最可能生成了它们？」MLE 是逻辑回归、大多数经典建模——以及并非巧合地——许多机器学习内部的引擎，那里的损失函数往往不过是负对数似然的伪装。

置信区间

单凭一个点估计过于自信——它隐藏了答案本可能有多大的摆动。置信区间附上一个区间，由标准误构建：

\bar{x} \pm 1.96 \cdot \operatorname{SE}(\bar{x}) \quad (\text{95\% CI})

这个 1.96 直接来自正态曲线——钟形 95% 的质量落在中心两侧 1.96 个标准差之内。但它的解释是统计学中被误解最深的概念：

假设检验

假设检验是一种正式的方式来问：「这个效应是真的，还是只是噪声？」它的结构刻意保守，就像一间推定无罪的法庭：

陈述一个原假设 H₀——无聊的默认值，「没有效应」「硬币是均匀的」「新设计什么也没改变」。
陈述一个备择假设 H₁——「存在效应」。
计算一个检验统计量，衡量数据离 H₀ 的预测有多远。
计算 p 值，并与阈值 α（通常 0.05）比较。

p 值是科学中被滥用得最厉害的一个数字，所以要对它精确：它是在原假设为真的前提下，看到至少这么极端的数据的概率。较小的 p 值意味着这些数据在「没有效应」下会令人惊讶，于是你拒绝 H₀。

第一类、第二类错误与功效

由于推断基于有限的数据，你有时会以两种不同的方式犯错：

第一类错误（假阳性）——拒绝了一个为真的原假设。你宣称了一个并不存在的效应。它的发生率是 α，即你所选的阈值。
第二类错误（假阴性）——未能拒绝一个为假的原假设。本有一个真实效应，你却错过了。它的发生率是 β。

一个检验的功效是 1 − β：捕捉到真正存在的效应的概率。这种张力是永久的——收紧 α 以避免误报，就会抬高 β，错过更多真实效应。同时改善两者的主要杠杆是样本量，而这正是功效分析在你开展研究之前所计算的。

两种错误类型。在 H₀（左）下，越过阈值的尾部是第一类错误率 α——假阳性。在 H₁（右）下，阈值以下的重叠部分是第二类错误率 β——错过的真实效应。功效是 H₁ 曲线的其余部分。

多重比较陷阱

如果你在 α = 0.05 下检验一个假设，假阳性的概率是 5%。检验二十个独立假设，至少有一个纯靠运气亮起来的概率约为 64%。做足够多的检验，你几乎必然会得到一个毫无意义的「显著」结果。

这就是 p 值操纵（p-hacking，或称数据捞取）：把数据切成许多片、尝试许多变量，只报告那个越过 0.05 的比较。它通常不是欺诈——而是努力寻找、并在第一次胜利时停手的自然结果。防御手段是实打实的：在看数据之前就确定假设、在做许多检验时校正阈值（例如 Bonferroni：把 α 除以检验的数量），并留出一份数据来确认你发现的结论。

频率派 vs 贝叶斯

以上的一切都属于频率派传统：参数是固定但未知的，概率是长期频率，而你针对方法本身进行推理（p 值、置信区间）。它是大多数领域和大多数 A/B 测试中的默认范式。

贝叶斯这一替代范式，则把未知参数本身视为拥有一个概率分布。你从一个先验出发，用数据的似然套用贝叶斯法则，得到一个后验——一整套信念的分布。它的可信区间恰好意味着人们错误地希望置信区间所表达的那个直觉：「参数有 95% 的概率落在这里。」贝叶斯方法在小数据、值得编码的先验知识、或当你需要直接依据某个概率行动时大放异彩。两个学派都不是「对的」——它们回答的是略有不同的问题，而一个好的分析师两者都用。

它在我工作中的体现

诚实下结论的纪律

推断是「数字上升了」与「数字上升的幅度超过了噪声所能解释的范围」之间的区别。读懂一次 A/B 测试，从头到尾就是假设检验——原假设是「没有差异」、一个检验统计量、一个 p 值，以及报告效应量和置信区间、而不只是它有没有越过 0.05 的纪律。在情报与政府报告中，多重比较陷阱是一种持续的风险——把任何丰富的数据集切得够多，总会有东西看起来触目惊心——所以预先锁定问题、并标注不确定性，才是让一份简报保持可信的关键。

它培养的习惯，正是下游最重要的那个：把估计连同它的不确定性一起陈述、区分「显著」与「重要」，并诚实地交代你在找到那个值得报告的结果之前，尝试过多少种东西。