Skip to content
知识

/knowledge/bayesian-statistics

贝叶斯统计

把统计看作信念的更新。从你所想的出发,看到一些数据,再修正——依据一条在数学上是从证据中学习的唯一自洽方式的法则。

学于
贝叶斯统计数据科学硕士
时间
墨尔本大学,2023–2024
应用于
不确定性下的推理
阅读 / 复习
约 17 分钟阅读2026-06-25

有两种思考概率的方式,它们通向两整套统计传统。频率派观点说概率是一种长期频率——而你 试图估计的参数是一个固定的、未知的数。贝叶斯观点说概率是一种信念的程度——于是那个未知的参数本身就有一个概率分布,描述你对每个可能取值 的相信程度有多强。这一个转变改变了下游的一切。

贝叶斯方法的吸引力在于它契合我们真正推理的方式:你持有一个信念,证据到来,你便 更新。本页直接建立在概率页的贝叶斯法则 之上,把它从一个公式变成一套完整的、从数据中学习的哲学。我把它讲得慢而基础——每一步 都写明,包括代数。

01

作为信念的概率

假设你想知道一个新网页的真实转化率。频率派把这个率当作一个固定的数,并问「这个数 会产生什么样的数据?」贝叶斯派把它当作不确定的,并用一个分布描述他们对它的信念 ——也许是「大概在 10% 上下,但也合理地可能在 5% 到 20% 之间的任何地方」。

那个分布正是全部要点。贝叶斯派不把它坍缩成一个猜测,而是把不确定性的完整 形状带过每一次计算。当新数据到来时,分布变得更尖锐。你永远不会不再拥有一个 分布——你只是对真相落在何处更有信心。三个词汇命名了这些阶段:

  • 先验——你在看到数据之前所相信的。
  • 似然——对于参数的每个可能取值,观测到的数据有多大概率。
  • 后验——把两者结合之后你更新了的信念。

02

更新的引擎

贝叶斯法则就是把先验变成后验的机器。以 θ\theta 记未知 参数、DD 记观测数据:

p(θD)posterior=p(Dθ)likelihood  p(θ)priorp(D)evidence\underbrace{p(\theta \mid D)}_{\text{posterior}} = \frac{\overbrace{p(D \mid \theta)}^{\text{likelihood}}\;\overbrace{p(\theta)}^{\text{prior}}}{\underbrace{p(D)}_{\text{evidence}}}

后验 ∝ 似然 × 先验。分母不过是一个归一化常数,让后验积分为一。

把它当作一句话来读:你更新后的信念,就是你的先验信念,按每个参数值对你实际所见 数据的预测好坏重新加权。让数据变得可能的参数值,其信念被增强;让数据变得不可能的, 被压制。因为分母 p(D)p(D) 不依赖于 θ\theta,它只是一个把一切重新缩放到总和为一的常数——这就是 为什么这条法则以它的比例形式记起来最有用:

p(θD)    p(Dθ)p(θ)p(\theta \mid D) \;\propto\; p(D \mid \theta)\, p(\theta)

03

贝叶斯法则从何而来

贝叶斯法则不是一个额外的假设——它直接从条件概率的定义中得出。从「两个事件的联合 概率可以用两种等价方式分解」这一事实出发:

p(A,B)=p(AB)p(B)=p(BA)p(A)p(A, B) = p(A \mid B)\,p(B) = p(B \mid A)\,p(A)

两个表达式都等于同一个联合概率,所以把右边两式设为相等,再除以 p(B)p(B)

p(AB)p(B)=p(BA)p(A)p(AB)=p(BA)p(A)p(B)p(A \mid B)\,p(B) = p(B \mid A)\,p(A) \quad\Longrightarrow\quad p(A \mid B) = \frac{p(B \mid A)\,p(A)}{p(B)}

AA 换成 θ\theta、把 BB 换成数据 DD,你就得到了上面的 贝叶斯引擎。数学是初等的;而那个解释——p(θ)p(\theta) 是一个你 被允许持有并更新的信念——才是大胆之处。

04

一个推演实例:硬币

没有什么比亲眼看着一次更新发生更能让它具体起来。假设你有一枚硬币,想了解它的偏向 θ\theta——它正面朝上的概率。你抛它 nn 次,看到 kk 次正面。

先验。对一个概率的信念活在区间 [0,1][0, 1] 上,而那里自然的分布是 Beta 分布Beta(α,β)\text{Beta}(\alpha, \beta)。它的两个参数像是想象中先验的 正面与反面的计数,所以 Beta(1,1)\text{Beta}(1, 1) 是平的——「我毫无 头绪,任何偏向都同样合理」。

似然。对于一个给定的偏向,在 nn 次抛掷中 看到 kk 次正面的概率,是二项似然 θk(1θ)nk\theta^{k}(1-\theta)^{n-k}

更新。把先验乘以似然(比例形式),看看指数会发生什么:

p(θD)θk(1θ)nklikelihoodθα1(1θ)β1prior=θα+k1(1θ)β+nk1=Beta(α+k,  β+nk)\begin{aligned} p(\theta \mid D) &\propto \underbrace{\theta^{k}(1-\theta)^{n-k}}_{\text{likelihood}} \cdot \underbrace{\theta^{\alpha-1}(1-\theta)^{\beta-1}}_{\text{prior}} \\[4pt] &= \theta^{\,\alpha + k - 1}\,(1-\theta)^{\,\beta + n - k - 1} \\[4pt] &= \text{Beta}(\alpha + k,\; \beta + n - k) \end{aligned}

后验是另一个 Beta 分布——你只需把观测到的正面加到 α\alpha 上、把观测到的反面加到 β\beta 上。当后验像这样与先验有相同的形式时,这个先验被 称为共轭的,更新就是纯粹的算术。从 Beta(1,1)\text{Beta}(1,1) 出发,10 次中抛出 8 次正面,你的信念就 变成 Beta(9,3)\text{Beta}(9, 3)——峰值在 0.75 附近,但仍诚实地保留 不确定。

先验贝叶斯法则后验数据(似然)后验成为下一个先验
贝叶斯循环。先验信念遇上观测数据的似然;贝叶斯法则把它们融合成一个后验——它又成为下一批证据的先验。每一轮都让分布更尖锐。

05

选择先验

先验是贝叶斯派最强大的工具,也是最常见的批评对象。它让你把真实的知识折叠进来——但 也意味着两位分析师能从同样的数据得出不同的结论。你如何选它很重要:

  • 信息型先验编码真实的先验知识(「过去的试验把这种药的成功率定在 30% 附近」)。它们在数据稀少时帮助最大,稳住一个本会因数据太少而失控的估计。
  • 弱 / 无信息先验刻意保持含糊(一个平的 Beta(1,1)\text{Beta}(1,1)),让数据主导。一个常见而诚实的默认 选择。

06

可信区间 vs 置信区间

一旦你有了一个后验分布,概括它既容易、又终于——直观。一个 95% 可信区间是任何包含后验概率 95% 的区间,而它恰好意味着人们希望置信区间所 表达的:

P(aθbD)=0.95P(a \le \theta \le b \mid D) = 0.95

「在给定数据下,参数有 95% 的概率落在这个区间里」——一个关于参数的直接陈述。对比 频率派的置信区间,它的 95% 是关于长期方法的性质,而非任何单个区间的。贝叶斯版本正是大多数人错误地以为置信区间 已经在说的——而能够诚实地这样说,是这套方法真正的卖点。

07

为什么它会变难

如果贝叶斯法则这么干净,为什么不是一切都用贝叶斯?麻烦在那个分母。证据 p(D)p(D) 需要把似然 × 先验在每一个可能的参数值上 求和——一个积分:

p(D)=p(Dθ)p(θ)dθp(D) = \int p(D \mid \theta)\, p(\theta)\, d\theta

对于共轭的硬币,它有一个整洁的闭式。但对于一个有几十、几千个参数的现实模型,这是 一个没有解析解的高维积分,点也多到无法网格化。几十年来,那个难解的积分一直是把 贝叶斯方法挡在大多停留于理论的墙。突破在于:别再试图去计算它。

08

MCMC:对后验采样

让贝叶斯统计变得实用的洞见:你很少需要后验的公式——你只需要能从中抽取 样本。有了足够的样本,你就能通过简单地测量样本来估计任何你想要的概括(均值、一个 可信区间)。而且即使你只知道一个分布到那个讨厌的常数为止,你也能对它采样。

马尔可夫链蒙特卡洛(MCMC)做的正是这件事。它在参数空间中构建一次 随机游走,其规则被精心设计,使它在高后验区域逗留的时间与那里的概率成正比。经典的 Metropolis-Hastings 配方很直观:

  • 站在当前的参数值上,提议一个附近的随机步。
  • 如果提议处的后验密度更高,就移过去。如果更低,就只有时移过去——以等于 两个密度之比的概率。
  • 记录你所在之处,然后重复——成千上万步。

关键在于,那个接受比把难解的 p(D)p(D) 约掉了——它在分子分母都 出现,相除即消——所以你永远不必计算那个积分。收集到的位置轨迹就是来自 后验的一个样本。现代工具(Gibbs 采样、哈密顿蒙特卡洛、Stan、PyMC)是同一思想更 聪明的版本,正是它们让贝叶斯建模在今天的真实问题上变得可用。

09

它在我工作中的体现

10

60 秒回顾