统计建模 — rin.contact

线性回归页构建了一个强大的模型——但它假设结果是一个带正态分布误差的连续数。真实的结果不断打破这一点：一个是/否的决定、一次事件计数、一个比率。统计建模是这样一个框架：它保留回归那可解释的、线性的内核，同时把它延伸到所有这些情形——一个统一的想法，称为广义线性模型。

这是统计学家对「为任何东西建模」的答复，也是对机器学习视角的有意对照：机器学习为预测而优化，而统计建模看重理解——你能解释的系数、你能辩护的推断。下面就看一个优雅的结构如何覆盖极其广阔的数据。

超越那条直线

普通线性回归做了两个常常不成立的假设：结果可以是任意实数，且其误差是方差恒定的正态。在它们失效之处硬用它，它就会出岔子——预测一个概率，它会乐呵呵地返回 1.4 或 −0.3；对一个计数建模，它能预测出负的事件数。

解决之道不是为每种情形换一个模型——而是一个会弯折以贴合的框架。GLM 的洞见是：把熟悉的「预测变量的线性组合」留在内核，但通过两个灵活的部件把它连到结果上：为结果选一个分布，以及一个在线性预测与那个分布的尺度之间翻译的链接。

广义线性模型

一个 GLM 由三个分量构成，一旦你看清它们，就几乎能为任何结果构造一个模型：

随机分量——结果的概率分布（连续用正态、是/否用二项、计数用泊松）。这是你对「自己手上是哪种数据」所做的选择。
系统分量——熟悉的线性预测 $\eta = X\boldsymbol{\beta}$ ，特征的加权和。与线性回归无异。
链接函数——一个把结果的均值连到线性预测的函数 $g$ 。

g\big(\mathbb{E}[y]\big) = \eta = X\boldsymbol{\beta}

链接 g 把结果的均值连到线性预测 η = Xβ。选定分布与链接，你就有了一个模型。

链接是精巧之处。你不直接对均值建模（它可能是有界的，比如位于 $[0,1]$ 的概率），而是对一个变换后的均值建模，它能在全体实数上自由取值——于是线性预测永远不会被迫产生一个不可能的值。选定与你的结果相匹配的分布与链接，同一套机器就能拟合它。普通线性回归不过是其特例：正态分布、恒等链接 $g(\mu) = \mu$ 。

GLM 的三个部件。特征喂入一个线性预测（η = Xβ）；链接函数把它映射到所选结果分布的均值上。调换分布 + 链接，就能从同一个结构得到逻辑回归、泊松回归与普通回归。

逻辑回归

最常用的 GLM 对一个二元结果建模——是/否、点击/不点击、违约/还款。结果是二项的，而自然的链接是 logit（对数几率），它把位于 $[0,1]$ 的概率拉伸到整条实数线上：

\log\!\left(\frac{p}{1-p}\right) = X\boldsymbol{\beta}

反过来跑（其逆链接是 S 形的逻辑函数），任何线性预测都会映射到 0 与 1 之间的一个有效概率——不再有不可能的预测。系数也有干净的读法：每个 $\beta_j$ 是 $x_j$ 每增加一个单位时对数几率的变化，而 $e^{\beta_j}$ 是一个几率比——「这个因素把几率乘以 1.5」。它是统计学的主力分类器，也是通往 ML 页上分类模型的桥梁。

泊松回归

对于计数结果——工单数量、每个路口的事故数、每位患者的就诊次数——结果是泊松的，链接是对数：

\log(\lambda) = X\boldsymbol{\beta}

对期望计数的对数建模，使预测保持为正（计数永不为负），并让系数变成可乘的： $e^{\beta_j}$ 是预测变量每增加一个单位时比率相乘的因子。同样的三段式配方，不同的分布与链接——这正是这个框架的全部要点。（当计数比泊松所允许的更多变时——过度离散——你会去拿它的负二项表亲，但结构是完全一样的。）

拟合与似然

你无法用普通最小二乘所享有的那种整洁闭式来拟合 GLM。取而代之，你用极大似然——与统计学页同样的原则：选出让观测数据在模型下最为可能的系数。没有代数解，所以它由一个迭代例程（迭代重加权最小二乘）数值求得，但在概念上很简单——拨动 $\boldsymbol{\beta}$ 这个旋钮，直到数据看起来尽可能可能。

似然方法的回报是，它免费附带一整套推断工具：标准误、置信区间，以及对每个系数的检验，与回归页上完全一样——所以一个拟合好的 GLM 告诉你的不只是效应的大小，还有你对它们能有多确定。

模型选择

在一个如此灵活的框架里，危险在于构建一个过于复杂的模型——拟合了噪声，又是过拟合的问题。你需要一种有原则的方式来比较模型，它奖励拟合却惩罚复杂度。标准工具是赤池信息准则：

\text{AIC} = 2k - 2\ln(\hat{L})

这里 $\ln(\hat{L})$ 衡量模型拟合得多好（最大化的对数似然），而 $k$ 是参数的数量——所以 AIC 在拟合优度与复杂度之间权衡，越低越好。加入一个无用的预测变量会让拟合略有改善，但在惩罚项里要付出 $2$ 的代价，所以只有当它配得上自己的位置时 AIC 才会留下它。近亲 BIC 对参数的惩罚更狠（它把惩罚按样本量缩放），偏好更简单的模型。两者都是奥卡姆剃刀的正式表达——与正则化相同的简约本能，只是换了一副面孔。

诊断与拟合

一个拟合好的 GLM 仍需检查。残差平方和的对应物是偏差——一个由似然构建的度量，衡量模型的拟合距离完美还差多远；偏差越低拟合越好，而比较偏差能正式地检验一个新增项是否有帮助。和回归页上一样，你还要检查残差（为 GLM 专门定义的），看模型漏掉的残留模式，并留意扭曲拟合的影响点。纪律是相同的：直到你看过它哪里出了错，模型才算做完。

当数据有结构

GLM 假设观测彼此独立——但它们常常并非如此。同一位患者的重复测量、同一所学校里的学生、同一个传感器的读数：这些是分组的，无视那种结构会低估你的不确定性。混合效应（或层次）模型用随机效应扩展了框架——组层面的项，让每个簇拥有自己的调整，同时仍共享整体结构。这是你诚实地为嵌套、相关的数据建模的方式，它也直接连向贝叶斯的层次视角。统一的讯息是：选取与「数据实际如何生成」相匹配的分布、链接与分组。

它在我工作中的体现

面向真实结果的、可解释的主力

真实的结果很少是整洁的连续数，而 GLM 正是我为那些并非如此的结果建模的方式。逻辑回归用于一个是/否的结果——这个案件会不会升级、这次干预是否奏效——是常客，恰恰因为它的几率比是我能摆在决策者面前并加以解释的东西。泊松模型用于计数与比率，凡是问题为「多久一次」之处都会出现。要紧的取景是：统计建模为解释与推断而优化，而非纯粹的预测——所以当目标是理解并辩护一种关系、而不只是预报它时，这就是对的工具，而一个黑箱模型则是错的。

它也把这些统计页面串在一起：它推广了线性回归，跑在极大似然之上，并与正则化和贝叶斯视角共享其简约逻辑。

60 秒回顾

线性回归假设一个连续的、正态的结果。GLM 用一个框架把它推广到计数、是/否与比率。
三个部件：一个分布（随机）、线性预测 $\eta = X\boldsymbol{\beta}$ （系统），以及一个链接 $g(\mathbb{E}[y]) = \eta$ 。
逻辑回归：二项 + logit 链接 $\log\frac{p}{1-p}=X\boldsymbol{\beta}$ → 概率与几率比。泊松：对数链接 $\log\lambda=X\boldsymbol{\beta}$ → 计数。
用极大似然拟合（迭代）；免费获得标准误与检验。
用 AIC $=2k-2\ln\hat{L}$ / BIC 比较模型（拟合 vs 复杂度，越低越好）。检查偏差与残差。
分组/相关的数据 → 混合效应（随机效应）。统计建模看重解释胜于预测。