贝叶斯统计

有两种思考概率的方式，它们通向两整套统计传统。频率派观点说概率是一种长期频率——而你试图估计的参数是一个固定的、未知的数。贝叶斯观点说概率是一种信念的程度——于是那个未知的参数本身就有一个概率分布，描述你对每个可能取值的相信程度有多强。这一个转变改变了下游的一切。

贝叶斯方法的吸引力在于它契合我们真正推理的方式：你持有一个信念，证据到来，你便更新。本页直接建立在概率页的贝叶斯法则之上，把它从一个公式变成一套完整的、从数据中学习的哲学。我把它讲得慢而基础——每一步都写明，包括代数。

作为信念的概率

假设你想知道一个新网页的真实转化率。频率派把这个率当作一个固定的数，并问「这个数会产生什么样的数据？」贝叶斯派把它当作不确定的，并用一个分布描述他们对它的信念 ——也许是「大概在 10% 上下，但也合理地可能在 5% 到 20% 之间的任何地方」。

那个分布正是全部要点。贝叶斯派不把它坍缩成一个猜测，而是把不确定性的完整形状带过每一次计算。当新数据到来时，分布变得更尖锐。你永远不会不再拥有一个分布——你只是对真相落在何处更有信心。三个词汇命名了这些阶段：

先验——你在看到数据之前所相信的。
似然——对于参数的每个可能取值，观测到的数据有多大概率。
后验——把两者结合之后你更新了的信念。

更新的引擎

贝叶斯法则就是把先验变成后验的机器。以 $\theta$ 记未知参数、 $D$ 记观测数据：

\underbrace{p(\theta \mid D)}_{\text{posterior}} = \frac{\overbrace{p(D \mid \theta)}^{\text{likelihood}}\;\overbrace{p(\theta)}^{\text{prior}}}{\underbrace{p(D)}_{\text{evidence}}}

后验 ∝ 似然 × 先验。分母不过是一个归一化常数，让后验积分为一。

把它当作一句话来读：你更新后的信念，就是你的先验信念，按每个参数值对你实际所见数据的预测好坏重新加权。让数据变得可能的参数值，其信念被增强；让数据变得不可能的，被压制。因为分母 $p(D)$ 不依赖于 $\theta$ ，它只是一个把一切重新缩放到总和为一的常数——这就是为什么这条法则以它的比例形式记起来最有用：

p(\theta \mid D) \;\propto\; p(D \mid \theta)\, p(\theta)

贝叶斯法则从何而来

贝叶斯法则不是一个额外的假设——它直接从条件概率的定义中得出。从「两个事件的联合概率可以用两种等价方式分解」这一事实出发：

p(A, B) = p(A \mid B)\,p(B) = p(B \mid A)\,p(A)

两个表达式都等于同一个联合概率，所以把右边两式设为相等，再除以 $p(B)$ ：

p(A \mid B)\,p(B) = p(B \mid A)\,p(A) \quad\Longrightarrow\quad p(A \mid B) = \frac{p(B \mid A)\,p(A)}{p(B)}

把 $A$ 换成 $\theta$ 、把 $B$ 换成数据 $D$ ，你就得到了上面的贝叶斯引擎。数学是初等的；而那个解释—— $p(\theta)$ 是一个你被允许持有并更新的信念——才是大胆之处。

一个推演实例：硬币

没有什么比亲眼看着一次更新发生更能让它具体起来。假设你有一枚硬币，想了解它的偏向 $\theta$ ——它正面朝上的概率。你抛它 $n$ 次，看到 $k$ 次正面。

先验。对一个概率的信念活在区间 $[0, 1]$ 上，而那里自然的分布是 Beta 分布， $\text{Beta}(\alpha, \beta)$ 。它的两个参数像是想象中先验的正面与反面的计数，所以 $\text{Beta}(1, 1)$ 是平的——「我毫无头绪，任何偏向都同样合理」。

似然。对于一个给定的偏向，在 $n$ 次抛掷中看到 $k$ 次正面的概率，是二项似然 $\theta^{k}(1-\theta)^{n-k}$ 。

更新。把先验乘以似然（比例形式），看看指数会发生什么：

\begin{aligned} p(\theta \mid D) &\propto \underbrace{\theta^{k}(1-\theta)^{n-k}}_{\text{likelihood}} \cdot \underbrace{\theta^{\alpha-1}(1-\theta)^{\beta-1}}_{\text{prior}} \\[4pt] &= \theta^{\,\alpha + k - 1}\,(1-\theta)^{\,\beta + n - k - 1} \\[4pt] &= \text{Beta}(\alpha + k,\; \beta + n - k) \end{aligned}

后验是另一个 Beta 分布——你只需把观测到的正面加到 $\alpha$ 上、把观测到的反面加到 $\beta$ 上。当后验像这样与先验有相同的形式时，这个先验被称为共轭的，更新就是纯粹的算术。从 $\text{Beta}(1,1)$ 出发，10 次中抛出 8 次正面，你的信念就变成 $\text{Beta}(9, 3)$ ——峰值在 0.75 附近，但仍诚实地保留不确定。

贝叶斯循环。先验信念遇上观测数据的似然；贝叶斯法则把它们融合成一个后验——它又成为下一批证据的先验。每一轮都让分布更尖锐。

选择先验

先验是贝叶斯派最强大的工具，也是最常见的批评对象。它让你把真实的知识折叠进来——但也意味着两位分析师能从同样的数据得出不同的结论。你如何选它很重要：

信息型先验编码真实的先验知识（「过去的试验把这种药的成功率定在 30% 附近」）。它们在数据稀少时帮助最大，稳住一个本会因数据太少而失控的估计。
弱 / 无信息先验刻意保持含糊（一个平的 $\text{Beta}(1,1)$ ），让数据主导。一个常见而诚实的默认选择。

可信区间 vs 置信区间

一旦你有了一个后验分布，概括它既容易、又终于——直观。一个 95% 可信区间是任何包含后验概率 95% 的区间，而它恰好意味着人们希望置信区间所表达的：

P(a \le \theta \le b \mid D) = 0.95

「在给定数据下，参数有 95% 的概率落在这个区间里」——一个关于参数的直接陈述。对比频率派的置信区间，它的 95% 是关于长期方法的性质，而非任何单个区间的。贝叶斯版本正是大多数人错误地以为置信区间已经在说的——而能够诚实地这样说，是这套方法真正的卖点。

为什么它会变难

如果贝叶斯法则这么干净，为什么不是一切都用贝叶斯？麻烦在那个分母。证据 $p(D)$ 需要把似然 × 先验在每一个可能的参数值上求和——一个积分：

p(D) = \int p(D \mid \theta)\, p(\theta)\, d\theta

对于共轭的硬币，它有一个整洁的闭式。但对于一个有几十、几千个参数的现实模型，这是一个没有解析解的高维积分，点也多到无法网格化。几十年来，那个难解的积分一直是把贝叶斯方法挡在大多停留于理论的墙。突破在于：别再试图去计算它。

MCMC：对后验采样

让贝叶斯统计变得实用的洞见：你很少需要后验的公式——你只需要能从中抽取样本。有了足够的样本，你就能通过简单地测量样本来估计任何你想要的概括（均值、一个可信区间）。而且即使你只知道一个分布到那个讨厌的常数为止，你也能对它采样。

马尔可夫链蒙特卡洛（MCMC）做的正是这件事。它在参数空间中构建一次随机游走，其规则被精心设计，使它在高后验区域逗留的时间与那里的概率成正比。经典的 Metropolis-Hastings 配方很直观：

站在当前的参数值上，提议一个附近的随机步。
如果提议处的后验密度更高，就移过去。如果更低，就只有时移过去——以等于两个密度之比的概率。
记录你所在之处，然后重复——成千上万步。

关键在于，那个接受比把难解的 $p(D)$ 约掉了——它在分子分母都出现，相除即消——所以你永远不必计算那个积分。收集到的位置轨迹就是来自后验的一个样本。现代工具（Gibbs 采样、哈密顿蒙特卡洛、Stan、PyMC）是同一思想更聪明的版本，正是它们让贝叶斯建模在今天的真实问题上变得可用。

它在我工作中的体现

以世界真正运作的方式来推理

贝叶斯式的习惯——从一个先验出发，依据证据更新——正是不确定性下的良好分析真正的感觉，哪怕我并没有在写一个正式的模型。每当数据稀少而先验知识确实值点什么（早期实验、稀有事件）时，它就是正确的框架；每当一个决策需要一个诚实的正确概率、而非一个拒绝/接受的判决时也是如此——一个利益相关方能据以行动的可信区间，胜过一个他们会误读的 p 值。

它也与基础的其余部分自然成对：概率页给了法则，统计学页给了频率派的对照，而同样的「先验乘以似然」逻辑也支撑着机器学习中的模型似然。懂得两个学派、以及各自何时合适，才是真正的技能。