Skip to content
知识

/knowledge/linear-statistical-models

线性统计模型

应用统计的主力。拟合一条直线,却要深刻理解它——因为做得到位的回归,正是线性代数、概率与统计的交汇之处。

学于
线性统计模型理学学士 · 数据科学核心
时间
墨尔本大学,2019–2022
应用于
贯穿每段工作的回归分析
阅读 / 复习
约 15 分钟阅读2026-06-25

如果只能保留一个统计模型,那应该是线性模型。回归是应用数据工作中使用最广的工具 ——不是因为它最强大,而是因为它可解释、快速、被充分理解,而且是一个真正强大的基线。 它也是各项基础的完美交汇点:投影的线性代数、 误差项的概率论,以及推断的统计学

回归的危险在于它容易上手,以至于人们跳过了对它的理解。本页就是解药: 不是讲如何拟合一条直线,而是这条直线意味着什么、何时可信,以及如何判断它何时不可信。

01

人人都会拿来用的模型

线性回归回答了一个看似简单、实则丰富的问题:当一些输入 x 变化时, 结果 y 平均会如何变化——我们又有多确定?根据面积与地段预测房价、 根据广告投入预测销量、根据少数几个指标预测风险:都是同一种形态。它的魅力在于, 与黑箱模型不同,每个系数都是一句你可以大声说出来的话——「在地段不变的情况下, 多一间卧室大约增加 4 万澳元」。

02

线性模型

该模型假设结果是输入的加权和,再加上随机误差。以矩阵形式——把所有观测堆叠起来 ——它非常紧凑:

y=Xβ+ε\mathbf{y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}

这里 y 是结果向量,X设计矩阵(每行一个观测,每列一个特征,外加一列全为 1 用于截距),β 是我们想 学习的系数向量,ε误差项——特征无法解释的 一切。「线性」指的是对系数而言是线性的;你仍然可以通过向 X 添加 或交互项列来拟合曲线,这正是它远比初看更灵活的原因。

03

普通最小二乘法

要拟合模型,你需要找到让直线最贴近数据的 β普通最小二乘法(OLS)把「最贴近」定义为最小化残差平方之和 ——每个点与直线之间的竖直间隙。平方会重罚大的偏差,并让数学变得干净;令导数为零 便得到一个闭式解:

β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (X^{\top}X)^{-1} X^{\top}\mathbf{y}

这是整个统计学中少数几个拥有精确、一次到位解的模型之一——无需梯度下降(虽然你也可以用, 而且对超大数据必须用)。注意 (XᵀX)⁻¹:如果两个特征完全相关,XᵀX 就不可逆——这正是线性代数页中的问题, 在这里以多重共线性的形式浮现。

ŷ = Xβ̂
OLS 拟合的直线,使残差的总平方长度最小——即每个点到直线的竖直间隙。

04

OLS 的几何

这个公式藏着一个优美的几何事实,直接呼应线性代数。把结果 y 想成 高维空间中的一个点。模型产生的所有结果——每一个 ——构成一个平坦的子空间(X列空间)。通常 y 并不落在该子空间内;不存在完美拟合。

OLS 找出子空间中最接近 y 的点——而最近的点正是 y 在其上的正交投影。预测值 ŷ 就是这个投影, 残差 y − ŷ 与子空间垂直。这就是最小二乘法奏效的原因:最小化平方距离就是作垂线。整套方法就是线性代数页中的投影,戴上了一顶统计学的帽子。

05

那些假设

OLS 总会返回一条直线,但它的保证——以及它给出的每个 p 值的有效性 ——都建立在假设之上,即高斯-马尔可夫条件:

  • 线性性——真实关系确实对系数是线性的。
  • 独立性——误差之间互不依赖(时间序列与聚类数据会违反这一点)。
  • 同方差性——误差具有恒定方差,不随 x 增大而扩散。
  • 无完全多重共线性——没有任何特征是其他特征的精确组合 (这样 XᵀX 才可逆)。

当这些成立时,OLS 是 BLUE——最佳线性无偏估计量,即方差最小的无偏 线性估计量。再加上误差服从正态分布的假设,下面的 t 检验与置信区间就变得 精确有效。懂得这些,正是「我跑了个回归」与「我信任这个回归」之间的区别。

06

解读系数

每个系数 βⱼ 都有精确含义:在固定所有其他特征的前提下,xⱼ 每增加一个单位,y 的期望变化量。「固定其他变量」这一条, 正是多元回归低调的超能力——它在控制其余变量的同时估计每个效应,这正是你把真正的 驱动因素与混杂因素区分开来的方式。

07

推断与拟合优度

由于系数是从样本估计出来的,它们带有不确定性——统计学页的工具在此直接适用。每个 β̂ⱼ 都附带一个标准误t 检验判断它是否能 与零区分开(即其 p 值),置信区间给出它的合理范围。一个看起来很大、 但标准误也巨大的系数,并不是真正的信号。

对于整体拟合优度, 报告模型所解释的 y 方差占比:

R2=1SSresSStotR^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}}

R² 为 0 意味着模型不比直接预测均值更好;为 1 意味着完美拟合。但要小心:每当你添加 特征——哪怕是无用的——R² 只会上升,所以做模型比较时要用调整后 R²(它会惩罚多余的项)——与机器学习页中相同的过拟合警示。

08

诊断与扩展

拟合好的模型,在你检查之前都不算完成。最好用的单一工具是残差图——把剩余误差画出来,寻找本不该出现的东西。残差中有曲线,说明你漏掉了 非线性;呈扇形展开,说明存在异方差;成簇出现,说明存在依赖。残差应当看起来像 毫无特征的噪声;任何模式都是模型在告诉你它哪里错了。

当假设被打破时,这一模型家族会相应扩展:

  • 逻辑回归——对于是/否的结果,对对数几率作线性建模。通往分类的门户。
  • 广义线性模型(GLM)——相同的线性内核加上一个连接函数,涵盖计数 (泊松)与其他非正态结果。
  • 正则化回归——岭回归与 Lasso 加入机器学习页中的惩罚项, 以抑制方差并处理相关特征。

09

它在我工作中的体现

10

60 秒回顾