Skip to content
知识

/knowledge/probability

概率论

不确定性的数学。在你能为世界建模之前,你需要一种严谨的方式来表述某事有多可能——并在证据到来时更新这一信念。

学于
概率论理学学士 · 数据科学核心
时间
墨尔本大学,2019–2022
应用于
贝叶斯方法 · A/B 测试
阅读 / 复习
约 15 分钟阅读2026-06-25

每个数据集都是一个样本,每个模型都带有误差线,而每个预测其实都是关于可能性的 陈述。概率论是这一切的严谨语言——统计学之下的基础、贝叶斯方法内部的 引擎,也是让你不仅能说「这会发生」、还能说「这会发生,而我有多确定」的东西。

如果说线性代数是数据形状的 语法,那么概率就是其不确定性的语法。本页从三条公理出发,一直搭建到使统计 成为可能的两条定理——并在贝叶斯法则上花了实打实的篇幅,因为把它搞错,是应用数据 工作中代价最高的错误。

01

不确定性的语言

有两种诚实地解读概率的方式,优秀的数据科学家两者都持有。频率派观点:概率是一个事件在你永远重复实验时的长期频率——一枚均匀硬币是「0.5 正面」, 因为那是比例的极限。贝叶斯观点:概率是一种信念的程度,随证据到来而 更新——在你无法重复实验时很有用(「这位客户流失的概率是多少?」)。

它们在数学上很少分歧;它们框定的是不同的问题。下面的公理对两者都成立。

02

样本空间、事件与公理

三个词汇,然后是整座大厦:

  • 样本空间(Ω)——所有可能结果的集合。对于掷一次骰子,即 {1,2,3,4,5,6}
  • 事件——样本空间的任意子集。「掷出偶数」就是事件 {2,4,6}
  • 概率——赋给每个事件的一个数字,遵守三条规则。

概率论中的一切都源自柯尔莫哥洛夫的三条公理

  1. 概率从不为负:P(A) ≥ 0
  2. 样本空间中必有某事发生:P(Ω) = 1
  3. 对于互斥事件,概率相加:P(A ∪ B) = P(A) + P(B)

就这些。补集规则(P(非 A) = 1 − P(A))和一般加法规则 (P(A ∪ B) = P(A) + P(B) − P(A ∩ B),它减去被重复计算的重叠部分) 都是推论,而非新的假设。

03

条件概率与独立性

大多数真实问题都是条件性的:不是「下雨的概率是多少?」而是「在天空灰蒙蒙的条件下,下雨的概率是多少?」条件概率是当你已知 B 发生后, A 的概率:

P(AB)=P(AB)P(B)P(A \mid B) = \frac{P(A \cap B)}{P(B)}

你把整个世界重新缩放到 B 为真的那一片,然后问这一片中有多少同时也有 A。 重新整理便得到乘法规则 P(A ∩ B) = P(A | B) · P(B)

两个事件独立,是指知道其中一个对另一个一无所获——P(A | B) = P(A),等价地 P(A ∩ B) = P(A) · P(B)。 独立性是一个你应当挣得、而非想当然的假设:正是它让你能把概率相乘,而 错误地假设它(相关的特征、对同一个人重复测量)会悄悄地腐蚀许多模型。

04

贝叶斯法则

贝叶斯法则是你翻转一个条件概率的方式——把你常常能测量的 P(证据 | 假设),转化为你真正想要的 P(假设 | 证据)

P(HE)=P(EH)P(H)P(E)P(H \mid E) = \frac{P(E \mid H)\,P(H)}{P(E)}

把它读作信念更新:P(H) 是你的先验(证据之前的信念),P(E | H)似然(假设对证据的预测有多好),而 P(H | E)后验(之后的信念)。分母只是做归一化, 让它成为一个有效的概率。

1,0000.0010.9991 患病1 检测阳性999 健康~10 阳性(假)~989 阴性
以树状图呈现的基础率实例。在 1000 人中,对 999 名健康人的 1% 假阳性率会产生约 10 次误报——远多于唯一的那个真阳性。P(患病 | 阳性) ≈ 1 / 11 ≈ 9%。

05

随机变量

随机变量是附着在随机结果上的一个数字——从事件通往算术的桥梁。 「10 次抛掷中正面的次数」或「明天的气温」都是随机变量。两种类型:

  • 离散型——可数的取值(骰子点数之和、点击次数)。由概率质量函数 P(X = x) 描述,它给出每个取值的概率。
  • 连续型——某个范围上的取值(身高、时间)。由概率密度函数描述;这里概率是曲线下的面积,所以你问的是 P(a ≤ X ≤ b)——任何单个精确取值的概率都为零。

06

值得认识的分布

少数几个分布就覆盖了真实问题中极大的一部分。认出哪一个契合某种情形,就是应用 概率的一半功夫。

  • 伯努利——一次概率为 p 的是/否试验(一次抛硬币、 一次转化)。
  • 二项——n 次独立伯努利试验中成功的次数(1000 名访客中 的转化数)。
  • 泊松——固定窗口内稀有事件的计数(每小时的工单、每页的错别字)。
  • 正态(高斯)——钟形曲线;围绕均值聚集的测量值的默认模型,并且 ——多亏下面的定理——是求和与平均所趋向的分布。
−σ−2σ+2σμ68%95%
正态分布。约 68% 的取值落在均值的一个标准差内,95% 在两个标准差内,99.7% 在三个标准差内——这是大多数置信区间背后的经验法则。

07

期望与方差

两个数字概括了你从一个分布中所需的大部分信息。期望(或均值)是 长期平均——每个取值按其概率加权:

E[X]=xxP(X=x)\mathbb{E}[X] = \sum_{x} x\,P(X = x)

方差衡量离散程度——离均值的平均平方距离。它的平方根,即标准差 σ,与数据同单位,这就是为什么你通常引用的是它:

Var(X)=E ⁣[(Xμ)2]\operatorname{Var}(X) = \mathbb{E}\!\left[(X - \mu)^2\right]

均值告诉你分布坐落在哪里;方差告诉你能在多大程度上相信任意一次抽取会落在它附近。 没有方差的预测,只是半个预测。

08

两条极限定理

有两条结果,正是统计能够奏效的根本原因——它们把你实际拥有的、杂乱的单个样本, 与总体干净的行为联系起来。

大数定律:当你收集越来越多的独立样本时,它们的平均值收敛到真实 均值。这是「更多数据确实能锁定答案」的正式承诺——也是每一次「我们跑了 10000 遍」 模拟背后的依据。

中心极限定理是更深的魔法:许多独立随机变量的平均值近似服从正态分布无论这些原始变量来自什么分布。偏斜的、疙疙瘩瘩 的、古怪的——平均足够多个,你就得到一条钟形曲线。这就是为什么正态分布无处不在, 也是为什么你能在不知道底层分布的情况下,围绕样本均值给出置信区间。它是从概率 通往推断统计的桥梁。

09

它在我工作中的体现

10

60 秒回顾