计算统计

经典统计给出优美的闭式答案——但只针对那些整洁到配得上它们的问题。一个均值的标准误、一个置信区间的公式：它们之所以存在，是因为有人能做出那套代数。可一旦你的统计量不寻常、你的模型复杂、或你的假设不成立，代数就走到了尽头。计算统计就是答案：当你无法推导出结果时，就把它算出来——靠模拟、重采样与迭代。

它是从统计学页的理论通往「在真实、杂乱的数据上真正跑起来的东西」的桥梁，也是贝叶斯推断之下的机器。统一的想法既简单又有点离经叛道：用数学的优雅换取蛮力计算，让计算机找出数学找不出的答案。

当数学走到尽头

统计学页上那些经典公式都建立在假设之上—— 通常是数据服从正态分布、且你的统计量是均值这样简单的东西。现实却常常把两者都打破：一个偏斜的分布、一个小样本，或像中位数、相关系数、比率这样、根本没有整洁标准误公式的量。

计算统计不放弃（也不假装假设成立），而是重新框定问题。你不去推导一个统计量如何表现，而是去模拟它——把相关的随机性生成许多次，看会发生什么。有了足够的计算，经验答案与本该得到的解析答案一样好，而且它对任何公式都够不着的问题都管用。

蒙特卡洛方法

最基础的技术是蒙特卡洛方法：通过抽取许多随机样本并取平均，来估计一个你无法直接计算的量。想要某个随机变量函数的期望值？别去积分——抽样 $N$ 次，取均值：

\mathbb{E}[f(X)] \approx \frac{1}{N} \sum_{i=1}^{N} f(x_i)

抽 N 个样本，施加 f，取平均。由大数定律，随着 N 增大它收敛到真实的期望。

它之所以有效，是因为大数定律——随着样本累积，平均值收敛到真相——而它的误差以一个可预测的速率 $1/\sqrt{N}$ 收缩，所以要把误差减半，你需要四倍的样本。从向一个正方形里随机掷飞镖来估计 π，到给金融期权定价，再到在普通数值积分崩溃的高维里做积分，蒙特卡洛都是主力。代价是计算；回报是那些否则难解的问题的答案。

自助法

计算统计中最有用的单一想法是自助法，它听起来像作弊。你想知道，如果你能采集许多份新鲜的样本，一个统计量（比如中位数）会变动多少——但你只有一份样本。自助法的把戏：把你的样本当作就是总体，再从它里面抽取新的样本。

从你那有 $n$ 个点的数据集里，有放回地重采样 $n$ 个点——有些原始点出现两次，有些一次都不出现。
在这个自助样本上计算你的统计量。
重复成千上万次。那些值的散布估计出统计量的标准误，而它们的分位数给出一个置信区间。

就这样——而且它对任何统计量都管用，不需要公式，也不需要分布假设。它为那些没有解析解的量，给出统计学页上的标准误与置信区间。对你那唯一的数据集做重采样，确实能揭示你的估计本会抖动多少——这是那种少见的、好得令人难以置信、却又千真万确的想法之一。

自助法。从一份原始样本出发，抽取许多份重采样（有放回），并在每一份上计算统计量。那些值的分布给出标准误与一个置信区间——无需任何公式。

置换检验

同样的重采样精神，给了一种漂亮而直接的、无需任何公式来做假设检验的方法。置换检验问的是「这两组之间的差异是真实的，还是可能出于偶然？」——它直接模拟偶然：如果组标签真的无关紧要（零假设），你就能把它们打乱，看不到差异。

于是你把标签打乱成千上万次，每次重新计算差异，并构建出在纯粹偶然下你会预期的差异分布。你那个真实差异落在该分布中的位置，就是你的 p 值——是算出来的，而非推导出来的，且无需假设正态或别的任何东西即成立。这是从第一性原理得出的 p 值。

EM 算法

有些模型有一种先有鸡还是先有蛋的结构：有一个隐藏的（潜在）变量，你得知道它才能估计参数，但你又得有参数才能弄清那个潜在变量。经典的情形是若干组的混合——你想要每组的参数，却不知道每个点属于哪一组。

期望最大化（EM）算法靠交替来打破这个僵局，像一支两步的舞，直到它稳定下来：

E 步——给定当前参数，估计隐藏变量（例如每个点属于每一组的概率）。
M 步——给定那些估计，把参数更新到它们的最优值。

每一轮都增大似然，所以它会收敛。它是高斯混合模型以及许多聚类与缺失数据方法背后的引擎——而它与 k-means 是同样的「交替并收敛」模式，k-means 本质上就是 EM 的一个硬版本。

数值优化

大多数计算统计最终归结为一次优化——通常是寻找极大似然参数——而那些很少有闭式解。所以你数值地求解它们，用微积分页上那些基于梯度的方法：从某处出发，沿斜坡走向最优，迭代。拟合一个GLM、一个复杂的似然，或几乎任何现代模型，在底层正是这件事——计算机爬山爬到最优参数，因为没有公式把它们直接交出来。

一句话说 MCMC

这个家族中最强大的成员在贝叶斯页上有它自己的篇幅，但它也属于这里：马尔可夫链蒙特卡洛是计算统计在解决所有问题中最难的那个——从一个你只知道到一个常数为止的分布中抽样，从而你能用一个没有闭式的后验来计算。它是贝叶斯推断变得实用的原因，也是蒙特卡洛与模拟被推到其逻辑尽头的产物。

症结：随机性

这一切都倚赖随机数的稳定供应——而计算机是确定性的，所以它们造不出真正随机的数。它们使用伪随机生成器：产生在统计上与随机不可区分、却完全由一个起始种子决定的序列的算法。这是特性，而非缺陷：设定种子，你那「随机」的模拟就完全可复现——与别处一样的可复现性纪律，被施加到随机性本身上。（另一个实际的症结是成本：更多样本意味着更多计算，所以像方差缩减这样的技术，旨在用更少的抽取得到同样的精度。）