/knowledge/linear-statistical-models
线性统计模型
应用统计的主力。拟合一条直线,却要深刻理解它——因为做得到位的回归,正是线性代数、概率与统计的交汇之处。
- 学于
- 线性统计模型理学学士 · 数据科学核心
- 时间
- 墨尔本大学,2019–2022
- 应用于
- 贯穿每段工作的回归分析
- 阅读 / 复习
- 约 15 分钟阅读2026-06-25
如果只能保留一个统计模型,那应该是线性模型。回归是应用数据工作中使用最广的工具 ——不是因为它最强大,而是因为它可解释、快速、被充分理解,而且是一个真正强大的基线。 它也是各项基础的完美交汇点:投影的线性代数、 误差项的概率论,以及推断的统计学。
回归的危险在于它太容易上手,以至于人们跳过了对它的理解。本页就是解药: 不是讲如何拟合一条直线,而是这条直线意味着什么、何时可信,以及如何判断它何时不可信。
01
人人都会拿来用的模型
线性回归回答了一个看似简单、实则丰富的问题:当一些输入 x 变化时, 结果 y 平均会如何变化——我们又有多确定?根据面积与地段预测房价、 根据广告投入预测销量、根据少数几个指标预测风险:都是同一种形态。它的魅力在于, 与黑箱模型不同,每个系数都是一句你可以大声说出来的话——「在地段不变的情况下, 多一间卧室大约增加 4 万澳元」。
02
线性模型
该模型假设结果是输入的加权和,再加上随机误差。以矩阵形式——把所有观测堆叠起来 ——它非常紧凑:
这里 y 是结果向量,X 是设计矩阵(每行一个观测,每列一个特征,外加一列全为 1 用于截距),β 是我们想 学习的系数向量,ε 是误差项——特征无法解释的 一切。「线性」指的是对系数而言是线性的;你仍然可以通过向 X 添加 x² 或交互项列来拟合曲线,这正是它远比初看更灵活的原因。
03
普通最小二乘法
要拟合模型,你需要找到让直线最贴近数据的 β。普通最小二乘法(OLS)把「最贴近」定义为最小化残差平方之和 ——每个点与直线之间的竖直间隙。平方会重罚大的偏差,并让数学变得干净;令导数为零 便得到一个闭式解:
这是整个统计学中少数几个拥有精确、一次到位解的模型之一——无需梯度下降(虽然你也可以用, 而且对超大数据必须用)。注意 (XᵀX)⁻¹:如果两个特征完全相关,XᵀX 就不可逆——这正是线性代数页中的秩问题, 在这里以多重共线性的形式浮现。
04
OLS 的几何
这个公式藏着一个优美的几何事实,直接呼应线性代数。把结果 y 想成 高维空间中的一个点。模型能产生的所有结果——每一个 Xβ——构成一个平坦的子空间(X 的列空间)。通常 y 并不落在该子空间内;不存在完美拟合。
OLS 找出子空间中最接近 y 的点——而最近的点正是 y 在其上的正交投影。预测值 ŷ 就是这个投影, 残差 y − ŷ 与子空间垂直。这就是最小二乘法奏效的原因:最小化平方距离就是作垂线。整套方法就是线性代数页中的投影,戴上了一顶统计学的帽子。
05
那些假设
OLS 总会返回一条直线,但它的保证——以及它给出的每个 p 值的有效性 ——都建立在假设之上,即高斯-马尔可夫条件:
- 线性性——真实关系确实对系数是线性的。
- 独立性——误差之间互不依赖(时间序列与聚类数据会违反这一点)。
- 同方差性——误差具有恒定方差,不随
x增大而扩散。 - 无完全多重共线性——没有任何特征是其他特征的精确组合 (这样
XᵀX才可逆)。
当这些成立时,OLS 是 BLUE——最佳线性无偏估计量,即方差最小的无偏 线性估计量。再加上误差服从正态分布的假设,下面的 t 检验与置信区间就变得 精确有效。懂得这些,正是「我跑了个回归」与「我信任这个回归」之间的区别。
06
解读系数
每个系数 βⱼ 都有精确含义:在固定所有其他特征的前提下,xⱼ 每增加一个单位,y 的期望变化量。「固定其他变量」这一条, 正是多元回归低调的超能力——它在控制其余变量的同时估计每个效应,这正是你把真正的 驱动因素与混杂因素区分开来的方式。
07
推断与拟合优度
由于系数是从样本估计出来的,它们带有不确定性——统计学页的工具在此直接适用。每个 β̂ⱼ 都附带一个标准误;t 检验判断它是否能 与零区分开(即其 p 值),置信区间给出它的合理范围。一个看起来很大、 但标准误也巨大的系数,并不是真正的信号。
对于整体拟合优度,R² 报告模型所解释的 y 方差占比:
R² 为 0 意味着模型不比直接预测均值更好;为 1 意味着完美拟合。但要小心:每当你添加 特征——哪怕是无用的——R² 只会上升,所以做模型比较时要用调整后 R²(它会惩罚多余的项)——与机器学习页中相同的过拟合警示。
08
诊断与扩展
拟合好的模型,在你检查之前都不算完成。最好用的单一工具是残差图——把剩余误差画出来,寻找本不该出现的东西。残差中有曲线,说明你漏掉了 非线性;呈扇形展开,说明存在异方差;成簇出现,说明存在依赖。残差应当看起来像 毫无特征的噪声;任何模式都是模型在告诉你它哪里错了。
当假设被打破时,这一模型家族会相应扩展:
- 逻辑回归——对于是/否的结果,对对数几率作线性建模。通往分类的门户。
- 广义线性模型(GLM)——相同的线性内核加上一个连接函数,涵盖计数 (泊松)与其他非正态结果。
- 正则化回归——岭回归与 Lasso 加入机器学习页中的惩罚项, 以抑制方差并处理相关特征。
09
它在我工作中的体现
10