概率论

每个数据集都是一个样本，每个模型都带有误差线，而每个预测其实都是关于可能性的陈述。概率论是这一切的严谨语言——统计学之下的基础、贝叶斯方法内部的引擎，也是让你不仅能说「这会发生」、还能说「这会发生，而我有多确定」的东西。

如果说线性代数是数据形状的语法，那么概率就是其不确定性的语法。本页从三条公理出发，一直搭建到使统计成为可能的两条定理——并在贝叶斯法则上花了实打实的篇幅，因为把它搞错，是应用数据工作中代价最高的错误。

不确定性的语言

有两种诚实地解读概率的方式，优秀的数据科学家两者都持有。频率派观点：概率是一个事件在你永远重复实验时的长期频率——一枚均匀硬币是「0.5 正面」，因为那是比例的极限。贝叶斯观点：概率是一种信念的程度，随证据到来而更新——在你无法重复实验时很有用（「这位客户流失的概率是多少？」）。

它们在数学上很少分歧；它们框定的是不同的问题。下面的公理对两者都成立。

样本空间、事件与公理

三个词汇，然后是整座大厦：

样本空间（Ω）——所有可能结果的集合。对于掷一次骰子，即 {1,2,3,4,5,6}。
事件——样本空间的任意子集。「掷出偶数」就是事件 {2,4,6}。
概率——赋给每个事件的一个数字，遵守三条规则。

概率论中的一切都源自柯尔莫哥洛夫的三条公理：

概率从不为负：P(A) ≥ 0。
样本空间中必有某事发生：P(Ω) = 1。
对于互斥事件，概率相加：P(A ∪ B) = P(A) + P(B)。

就这些。补集规则（P(非 A) = 1 − P(A)）和一般加法规则（P(A ∪ B) = P(A) + P(B) − P(A ∩ B)，它减去被重复计算的重叠部分）都是推论，而非新的假设。

条件概率与独立性

大多数真实问题都是条件性的：不是「下雨的概率是多少？」而是「在天空灰蒙蒙的条件下，下雨的概率是多少？」条件概率是当你已知 B 发生后， A 的概率：

P(A \mid B) = \frac{P(A \cap B)}{P(B)}

你把整个世界重新缩放到 B 为真的那一片，然后问这一片中有多少同时也有 A。重新整理便得到乘法规则 P(A ∩ B) = P(A | B) · P(B)。

两个事件独立，是指知道其中一个对另一个一无所获——P(A | B) = P(A)，等价地 P(A ∩ B) = P(A) · P(B)。独立性是一个你应当挣得、而非想当然的假设：正是它让你能把概率相乘，而错误地假设它（相关的特征、对同一个人重复测量）会悄悄地腐蚀许多模型。

贝叶斯法则

贝叶斯法则是你翻转一个条件概率的方式——把你常常能测量的 P(证据 | 假设)，转化为你真正想要的 P(假设 | 证据)：

P(H \mid E) = \frac{P(E \mid H)\,P(H)}{P(E)}

把它读作信念更新：P(H) 是你的先验（证据之前的信念），P(E | H) 是似然（假设对证据的预测有多好），而 P(H | E) 是后验（之后的信念）。分母只是做归一化，让它成为一个有效的概率。

以树状图呈现的基础率实例。在 1000 人中，对 999 名健康人的 1% 假阳性率会产生约 10 次误报——远多于唯一的那个真阳性。P(患病 | 阳性) ≈ 1 / 11 ≈ 9%。

随机变量

随机变量是附着在随机结果上的一个数字——从事件通往算术的桥梁。「10 次抛掷中正面的次数」或「明天的气温」都是随机变量。两种类型：

离散型——可数的取值（骰子点数之和、点击次数）。由概率质量函数 P(X = x) 描述，它给出每个取值的概率。
连续型——某个范围上的取值（身高、时间）。由概率密度函数描述；这里概率是曲线下的面积，所以你问的是 P(a ≤ X ≤ b)——任何单个精确取值的概率都为零。

值得认识的分布

少数几个分布就覆盖了真实问题中极大的一部分。认出哪一个契合某种情形，就是应用概率的一半功夫。

伯努利——一次概率为 p 的是/否试验（一次抛硬币、一次转化）。
二项——n 次独立伯努利试验中成功的次数（1000 名访客中的转化数）。
泊松——固定窗口内稀有事件的计数（每小时的工单、每页的错别字）。
正态（高斯）——钟形曲线；围绕均值聚集的测量值的默认模型，并且 ——多亏下面的定理——是求和与平均所趋向的分布。

正态分布。约 68% 的取值落在均值的一个标准差内，95% 在两个标准差内，99.7% 在三个标准差内——这是大多数置信区间背后的经验法则。

期望与方差

两个数字概括了你从一个分布中所需的大部分信息。期望（或均值）是长期平均——每个取值按其概率加权：

\mathbb{E}[X] = \sum_{x} x\,P(X = x)

方差衡量离散程度——离均值的平均平方距离。它的平方根，即标准差 σ，与数据同单位，这就是为什么你通常引用的是它：

\operatorname{Var}(X) = \mathbb{E}\!\left[(X - \mu)^2\right]

均值告诉你分布坐落在哪里；方差告诉你能在多大程度上相信任意一次抽取会落在它附近。没有方差的预测，只是半个预测。

两条极限定理

有两条结果，正是统计能够奏效的根本原因——它们把你实际拥有的、杂乱的单个样本，与总体干净的行为联系起来。

大数定律：当你收集越来越多的独立样本时，它们的平均值收敛到真实均值。这是「更多数据确实能锁定答案」的正式承诺——也是每一次「我们跑了 10000 遍」模拟背后的依据。

中心极限定理是更深的魔法：许多独立随机变量的平均值近似服从正态分布，无论这些原始变量来自什么分布。偏斜的、疙疙瘩瘩的、古怪的——平均足够多个，你就得到一条钟形曲线。这就是为什么正态分布无处不在，也是为什么你能在不知道底层分布的情况下，围绕样本均值给出置信区间。它是从概率通往推断统计的桥梁。