线性统计模型

如果只能保留一个统计模型，那应该是线性模型。回归是应用数据工作中使用最广的工具 ——不是因为它最强大，而是因为它可解释、快速、被充分理解，而且是一个真正强大的基线。它也是各项基础的完美交汇点：投影的线性代数、误差项的概率论，以及推断的统计学。

回归的危险在于它太容易上手，以至于人们跳过了对它的理解。本页就是解药：不是讲如何拟合一条直线，而是这条直线意味着什么、何时可信，以及如何判断它何时不可信。

人人都会拿来用的模型

线性回归回答了一个看似简单、实则丰富的问题：当一些输入 x 变化时，结果 y 平均会如何变化——我们又有多确定？根据面积与地段预测房价、根据广告投入预测销量、根据少数几个指标预测风险：都是同一种形态。它的魅力在于，与黑箱模型不同，每个系数都是一句你可以大声说出来的话——「在地段不变的情况下，多一间卧室大约增加 4 万澳元」。

线性模型

该模型假设结果是输入的加权和，再加上随机误差。以矩阵形式——把所有观测堆叠起来 ——它非常紧凑：

\mathbf{y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}

这里 y 是结果向量，X 是设计矩阵（每行一个观测，每列一个特征，外加一列全为 1 用于截距），β 是我们想学习的系数向量，ε 是误差项——特征无法解释的一切。「线性」指的是对系数而言是线性的；你仍然可以通过向 X 添加 x² 或交互项列来拟合曲线，这正是它远比初看更灵活的原因。

普通最小二乘法

要拟合模型，你需要找到让直线最贴近数据的 β。普通最小二乘法（OLS）把「最贴近」定义为最小化残差平方之和 ——每个点与直线之间的竖直间隙。平方会重罚大的偏差，并让数学变得干净；令导数为零便得到一个闭式解：

\hat{\boldsymbol{\beta}} = (X^{\top}X)^{-1} X^{\top}\mathbf{y}

这是整个统计学中少数几个拥有精确、一次到位解的模型之一——无需梯度下降（虽然你也可以用，而且对超大数据必须用）。注意 (XᵀX)⁻¹：如果两个特征完全相关，XᵀX 就不可逆——这正是线性代数页中的秩问题，在这里以多重共线性的形式浮现。

OLS 拟合的直线，使残差的总平方长度最小——即每个点到直线的竖直间隙。

OLS 的几何

这个公式藏着一个优美的几何事实，直接呼应线性代数。把结果 y 想成高维空间中的一个点。模型能产生的所有结果——每一个 Xβ——构成一个平坦的子空间（X 的列空间）。通常 y 并不落在该子空间内；不存在完美拟合。

OLS 找出子空间中最接近 y 的点——而最近的点正是 y 在其上的正交投影。预测值 ŷ 就是这个投影，残差 y − ŷ 与子空间垂直。这就是最小二乘法奏效的原因：最小化平方距离就是作垂线。整套方法就是线性代数页中的投影，戴上了一顶统计学的帽子。

那些假设

OLS 总会返回一条直线，但它的保证——以及它给出的每个 p 值的有效性 ——都建立在假设之上，即高斯-马尔可夫条件：

线性性——真实关系确实对系数是线性的。
独立性——误差之间互不依赖（时间序列与聚类数据会违反这一点）。
同方差性——误差具有恒定方差，不随 x 增大而扩散。
无完全多重共线性——没有任何特征是其他特征的精确组合（这样 XᵀX 才可逆）。

当这些成立时，OLS 是 BLUE——最佳线性无偏估计量，即方差最小的无偏线性估计量。再加上误差服从正态分布的假设，下面的 t 检验与置信区间就变得精确有效。懂得这些，正是「我跑了个回归」与「我信任这个回归」之间的区别。

解读系数

每个系数 βⱼ 都有精确含义：在固定所有其他特征的前提下，xⱼ 每增加一个单位，y 的期望变化量。「固定其他变量」这一条，正是多元回归低调的超能力——它在控制其余变量的同时估计每个效应，这正是你把真正的驱动因素与混杂因素区分开来的方式。

推断与拟合优度

由于系数是从样本估计出来的，它们带有不确定性——统计学页的工具在此直接适用。每个 β̂ⱼ 都附带一个标准误；t 检验判断它是否能与零区分开（即其 p 值），置信区间给出它的合理范围。一个看起来很大、但标准误也巨大的系数，并不是真正的信号。

对于整体拟合优度，R² 报告模型所解释的 y 方差占比：

R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}}

R² 为 0 意味着模型不比直接预测均值更好；为 1 意味着完美拟合。但要小心：每当你添加特征——哪怕是无用的——R² 只会上升，所以做模型比较时要用调整后 R²（它会惩罚多余的项）——与机器学习页中相同的过拟合警示。

诊断与扩展

拟合好的模型，在你检查之前都不算完成。最好用的单一工具是残差图——把剩余误差画出来，寻找本不该出现的东西。残差中有曲线，说明你漏掉了非线性；呈扇形展开，说明存在异方差；成簇出现，说明存在依赖。残差应当看起来像毫无特征的噪声；任何模式都是模型在告诉你它哪里错了。

当假设被打破时，这一模型家族会相应扩展：

逻辑回归——对于是/否的结果，对对数几率作线性建模。通往分类的门户。
广义线性模型（GLM）——相同的线性内核加上一个连接函数，涵盖计数（泊松）与其他非正态结果。
正则化回归——岭回归与 Lasso 加入机器学习页中的惩罚项，以抑制方差并处理相关特征。