Skip to content
知识

/knowledge/statistical-modelling

统计建模

线性回归只是一个模型。这是包含它的框架——并把它延伸到计数、是/否结果与比率,全都出自一个优雅的想法。

学于
统计建模数据科学硕士
时间
墨尔本大学,2023–2024
应用于
对非正态结果建模
阅读 / 复习
约 16 分钟阅读2026-06-25

线性回归页构建了一个强大的 模型——但它假设结果是一个带正态分布误差的连续数。真实的结果不断打破这一点:一个是/否 的决定、一次事件计数、一个比率。统计建模是这样一个框架:它保留回归那可 解释的、线性的内核,同时把它延伸到所有这些情形——一个统一的想法,称为广义线性模型

这是统计学家对「为任何东西建模」的答复,也是对 机器学习视角的有意对照: 机器学习为预测而优化,而统计建模看重理解——你能解释的系数、你能辩护的推断。 下面就看一个优雅的结构如何覆盖极其广阔的数据。

01

超越那条直线

普通线性回归做了两个常常不成立的假设:结果可以是任意实数,且其误差是方差恒定的 正态。在它们失效之处硬用它,它就会出岔子——预测一个概率,它会乐呵呵地返回 1.4 或 −0.3;对一个计数建模,它能预测出负的事件数。

解决之道不是为每种情形换一个模型——而是一个会弯折以贴合的框架。GLM 的洞见是:把熟悉 的「预测变量的线性组合」留在内核,但通过两个灵活的部件把它连到结果上:为结果选一个分布,以及一个在线性预测与那个分布的尺度之间翻译的链接

02

广义线性模型

一个 GLM 由三个分量构成,一旦你看清它们,就几乎能为任何结果构造一个 模型:

  • 随机分量——结果的概率分布(连续用正态、是/否用二项、计数用泊松)。这是 你对「自己手上是哪种数据」所做的选择。
  • 系统分量——熟悉的线性预测 η=Xβ\eta = X\boldsymbol{\beta},特征的加权和。与线性 回归无异。
  • 链接函数——一个把结果的均值连到线性预测的函数 gg
g(E[y])=η=Xβg\big(\mathbb{E}[y]\big) = \eta = X\boldsymbol{\beta}

链接 g 把结果的均值连到线性预测 η = Xβ。选定分布与链接,你就有了一个模型。

链接是精巧之处。你不直接对均值建模(它可能是有界的,比如位于 [0,1][0,1] 的概率),而是对一个变换后的均值建模,它能在全体实数上自由取值——于是线性 预测永远不会被迫产生一个不可能的值。选定与你的结果相匹配的分布与链接,同一套机器就能 拟合它。普通线性回归不过是其特例:正态分布、恒等链接 g(μ)=μg(\mu) = \mu

特征 X线性预测η = Xβ链接 gE[y]分布
GLM 的三个部件。特征喂入一个线性预测(η = Xβ);链接函数把它映射到所选结果分布的均值上。调换分布 + 链接,就能从同一个结构得到逻辑回归、泊松回归与普通回归。

03

逻辑回归

最常用的 GLM 对一个二元结果建模——是/否、点击/不点击、违约/还款。结果是 二项的,而自然的链接是 logit(对数几率),它把位于 [0,1][0,1] 的概率拉伸到整条实数线上:

log ⁣(p1p)=Xβ\log\!\left(\frac{p}{1-p}\right) = X\boldsymbol{\beta}

反过来跑(其逆链接是 S 形的逻辑函数),任何线性预测都会映射到 0 与 1 之间的一个有效概率——不再有不可能的预测。系数也有干净的读法:每个 βj\beta_j xjx_j 每增加一个单位时对数几率的变化,而 eβje^{\beta_j} 是一个几率比——「这个因素把几率乘以 1.5」。它是统计学的主力分类器,也是 通往 ML 页上分类模型的 桥梁。

04

泊松回归

对于计数结果——工单数量、每个路口的事故数、每位患者的就诊次数——结果是 泊松的,链接是对数

log(λ)=Xβ\log(\lambda) = X\boldsymbol{\beta}

对期望计数的对数建模,使预测保持为正(计数永不为负),并让系数变成可乘的:eβje^{\beta_j} 是预测变量每增加一个单位时比率相乘的因子。同样的三段式配方, 不同的分布与链接——这正是这个框架的全部要点。(当计数比泊松所允许的更多变时——过度离散——你会去拿它的负二项表亲,但结构是完全一样的。)

05

拟合与似然

你无法用普通最小二乘所享有的那种整洁闭式来拟合 GLM。取而代之,你用极大似然——与统计学页同样的 原则:选出让观测数据在模型下最为可能的系数。没有代数解,所以它由一个迭代例程(迭代 重加权最小二乘)数值求得,但在概念上很简单——拨动 β\boldsymbol{\beta} 这个旋钮, 直到数据看起来尽可能可能。

似然方法的回报是,它免费附带一整套推断工具:标准误、置信区间,以及对每个系数的检验, 与回归页上完全一样——所以一个拟合好的 GLM 告诉你的不只是效应的大小,还有你对它们能有 多确定。

06

模型选择

在一个如此灵活的框架里,危险在于构建一个过于复杂的模型——拟合了噪声,又是过拟合的问题。你需要一种 有原则的方式来比较模型,它奖励拟合却惩罚复杂度。标准工具是赤池信息准则

AIC=2k2ln(L^)\text{AIC} = 2k - 2\ln(\hat{L})

这里 ln(L^)\ln(\hat{L}) 衡量模型拟合得多好(最大化的对数似然),而 kk 是参数的数量——所以 AIC 在拟合优度与复杂度之间权衡,越低越好。加入 一个无用的预测变量会让拟合略有改善,但在惩罚项里要付出 22 的代价, 所以只有当它配得上自己的位置时 AIC 才会留下它。近亲 BIC 对参数的惩罚 更狠(它把惩罚按样本量缩放),偏好更简单的模型。两者都是奥卡姆剃刀的正式表达——与 正则化相同的简约本能,只是换了一副面孔。

07

诊断与拟合

一个拟合好的 GLM 仍需检查。残差平方和的对应物是偏差——一个由似然构建的 度量,衡量模型的拟合距离完美还差多远;偏差越低拟合越好,而比较偏差能正式地检验一个 新增项是否有帮助。和回归页上一样,你还要检查残差(为 GLM 专门定义的), 看模型漏掉的残留模式,并留意扭曲拟合的影响点。纪律是相同的:直到你看过 它哪里出了错,模型才算做完。

08

当数据有结构

GLM 假设观测彼此独立——但它们常常并非如此。同一位患者的重复测量、同一所学校里的 学生、同一个传感器的读数:这些是分组的,无视那种结构会低估你的不确定性。混合效应(或层次)模型用随机效应扩展了框架——组层面的项, 让每个簇拥有自己的调整,同时仍共享整体结构。这是你诚实地为嵌套、相关的数据建模的 方式,它也直接连向贝叶斯的层次 视角。统一的讯息是:选取与「数据实际如何生成」相匹配的分布、链接与分组。

09

它在我工作中的体现

10

60 秒回顾