/knowledge/probability
概率论
不确定性的数学。在你能为世界建模之前,你需要一种严谨的方式来表述某事有多可能——并在证据到来时更新这一信念。
- 学于
- 概率论理学学士 · 数据科学核心
- 时间
- 墨尔本大学,2019–2022
- 应用于
- 贝叶斯方法 · A/B 测试
- 阅读 / 复习
- 约 15 分钟阅读2026-06-25
每个数据集都是一个样本,每个模型都带有误差线,而每个预测其实都是关于可能性的 陈述。概率论是这一切的严谨语言——统计学之下的基础、贝叶斯方法内部的 引擎,也是让你不仅能说「这会发生」、还能说「这会发生,而我有多确定」的东西。
如果说线性代数是数据形状的 语法,那么概率就是其不确定性的语法。本页从三条公理出发,一直搭建到使统计 成为可能的两条定理——并在贝叶斯法则上花了实打实的篇幅,因为把它搞错,是应用数据 工作中代价最高的错误。
01
不确定性的语言
有两种诚实地解读概率的方式,优秀的数据科学家两者都持有。频率派观点:概率是一个事件在你永远重复实验时的长期频率——一枚均匀硬币是「0.5 正面」, 因为那是比例的极限。贝叶斯观点:概率是一种信念的程度,随证据到来而 更新——在你无法重复实验时很有用(「这位客户流失的概率是多少?」)。
它们在数学上很少分歧;它们框定的是不同的问题。下面的公理对两者都成立。
02
样本空间、事件与公理
三个词汇,然后是整座大厦:
- 样本空间(Ω)——所有可能结果的集合。对于掷一次骰子,即
{1,2,3,4,5,6}。 - 事件——样本空间的任意子集。「掷出偶数」就是事件
{2,4,6}。 - 概率——赋给每个事件的一个数字,遵守三条规则。
概率论中的一切都源自柯尔莫哥洛夫的三条公理:
- 概率从不为负:
P(A) ≥ 0。 - 样本空间中必有某事发生:
P(Ω) = 1。 - 对于互斥事件,概率相加:
P(A ∪ B) = P(A) + P(B)。
就这些。补集规则(P(非 A) = 1 − P(A))和一般加法规则 (P(A ∪ B) = P(A) + P(B) − P(A ∩ B),它减去被重复计算的重叠部分) 都是推论,而非新的假设。
03
条件概率与独立性
大多数真实问题都是条件性的:不是「下雨的概率是多少?」而是「在天空灰蒙蒙的条件下,下雨的概率是多少?」条件概率是当你已知 B 发生后, A 的概率:
你把整个世界重新缩放到 B 为真的那一片,然后问这一片中有多少同时也有 A。 重新整理便得到乘法规则 P(A ∩ B) = P(A | B) · P(B)。
两个事件独立,是指知道其中一个对另一个一无所获——P(A | B) = P(A),等价地 P(A ∩ B) = P(A) · P(B)。 独立性是一个你应当挣得、而非想当然的假设:正是它让你能把概率相乘,而 错误地假设它(相关的特征、对同一个人重复测量)会悄悄地腐蚀许多模型。
04
贝叶斯法则
贝叶斯法则是你翻转一个条件概率的方式——把你常常能测量的 P(证据 | 假设),转化为你真正想要的 P(假设 | 证据):
把它读作信念更新:P(H) 是你的先验(证据之前的信念),P(E | H) 是似然(假设对证据的预测有多好),而 P(H | E) 是后验(之后的信念)。分母只是做归一化, 让它成为一个有效的概率。
05
随机变量
随机变量是附着在随机结果上的一个数字——从事件通往算术的桥梁。 「10 次抛掷中正面的次数」或「明天的气温」都是随机变量。两种类型:
- 离散型——可数的取值(骰子点数之和、点击次数)。由概率质量函数
P(X = x)描述,它给出每个取值的概率。 - 连续型——某个范围上的取值(身高、时间)。由概率密度函数描述;这里概率是曲线下的面积,所以你问的是
P(a ≤ X ≤ b)——任何单个精确取值的概率都为零。
06
值得认识的分布
少数几个分布就覆盖了真实问题中极大的一部分。认出哪一个契合某种情形,就是应用 概率的一半功夫。
- 伯努利——一次概率为
p的是/否试验(一次抛硬币、 一次转化)。 - 二项——
n次独立伯努利试验中成功的次数(1000 名访客中 的转化数)。 - 泊松——固定窗口内稀有事件的计数(每小时的工单、每页的错别字)。
- 正态(高斯)——钟形曲线;围绕均值聚集的测量值的默认模型,并且 ——多亏下面的定理——是求和与平均所趋向的分布。
07
期望与方差
两个数字概括了你从一个分布中所需的大部分信息。期望(或均值)是 长期平均——每个取值按其概率加权:
方差衡量离散程度——离均值的平均平方距离。它的平方根,即标准差 σ,与数据同单位,这就是为什么你通常引用的是它:
均值告诉你分布坐落在哪里;方差告诉你能在多大程度上相信任意一次抽取会落在它附近。 没有方差的预测,只是半个预测。
08
两条极限定理
有两条结果,正是统计能够奏效的根本原因——它们把你实际拥有的、杂乱的单个样本, 与总体干净的行为联系起来。
大数定律:当你收集越来越多的独立样本时,它们的平均值收敛到真实 均值。这是「更多数据确实能锁定答案」的正式承诺——也是每一次「我们跑了 10000 遍」 模拟背后的依据。
中心极限定理是更深的魔法:许多独立随机变量的平均值近似服从正态分布,无论这些原始变量来自什么分布。偏斜的、疙疙瘩瘩 的、古怪的——平均足够多个,你就得到一条钟形曲线。这就是为什么正态分布无处不在, 也是为什么你能在不知道底层分布的情况下,围绕样本均值给出置信区间。它是从概率 通往推断统计的桥梁。
09
它在我工作中的体现
10