抽样与调查方法

一项 1,500 人的民调竟声称能代表一个数百万人的国家——这里头有种近乎悖论的东西，然而，只要做得对，它真的能，达到一种你能量化的精度。那种近乎魔法的本事，是抽样理论的成就：那套挑选一小群人、使关于他们为真的东西可靠地对所有人都为真的规则。抽样抽对了，几千个回答就能告诉你关于数百万人的事。抽错了，世上没有任何样本量能救你——那些著名的民调灾难全都是抽样的失败，而非算术的失败。

这是信任任何从总体的一部分算出来的数字的根基，而在实践中几乎每个数字都是如此。这一页讲抽样如何运作、为什么运作，以及——最重要的——它静悄悄失败的那些方式，因为一个有偏的样本会产出一个自信的、精确的、彻底错误的答案。

为什么一个样本能代表所有人

前提是，你很少需要测量每一个人（一次普查）才能了解每一个人。一个挑得好的子集，以一小部分的成本与时间，承载着整体的信息。关键词是挑得好——而让它运作的引擎，是从概率页借来的一个单一想法：随机性。

如果总体里的每一个成员都有一个已知的、非零的被选中机会，那么概率的法则就让你能从样本泛化到总体，并给这个泛化加上诚实的误差棒。把随机性拿掉，那座桥就塌了——你手里只有一堆来自碰巧应答者的回答，谁也不特别代表。

总体、抽样框与样本

三个不同的东西不断地被混为一谈，而它们之间的缝隙正是偏差栖身之处：

总体——你想对其下结论的所有人（所有合格选民、所有居民）。
抽样框——你实际从中抽取的那份名单（选民名册、电话簿）。它是你对总体的操作性替身。
样本——那些实际从抽样框里被选出并被测量的人。

至关重要、又容易错过的一点：抽样框几乎从来都不是总体。任何在总体里却不在名单上的人——没有电话的人、未登记的、联系不上的——无法被抽到，无论你的方法多好。那道缝隙就是覆盖，也是一项研究静悄悄出错的第一个地方。

概率抽样：能泛化的方法

概率抽样（每个单元都有一个已知的被选中机会）是让你能泛化的东西。主要的设计有：

简单随机抽样——每个单元可能性相等；干净的基线。
分层抽样——把总体切成若干组（层：年龄、地区），在每组内抽样，保证每一组都按比例被代表。当各层彼此相异时，更高效、更精确。
整群抽样——随机挑出整组（学校、郊区），并调查被选中组里的每一个人。对分散的总体更便宜，代价是损失一些精度。
系统抽样——从一份有序名单里每隔 k 个取一个。简单，但要当心名单里隐藏的周期性。

两种误差——而更糟的那种是看不见的

这是把懂调查的人与不懂的人区分开来的那个区别：

抽样误差——来自测量一个样本而非所有人的随机变异。它是可量化的（误差幅度），随样本增大可预测地缩小，也是人人都会报告的那种误差。
非抽样误差——其余的一切：覆盖缺口、无应答、措辞糟糕的问题、撒谎的应答者、数据录入错误。它不随样本量缩小，通常不被量化，也正是那些重大而尴尬的失败的来源。

会咬人的偏差

两种非抽样偏差，造成了现实世界里大多数的灾难：

选择 / 覆盖偏差——当抽样框以一种与你所测量之物相关的方式，系统性地漏掉总体的一部分。教科书案例：1936 年《文学文摘》的民调从汽车与电话登记册里抽了数百万人——在大萧条时期他们比平均更富裕——并自信地预测错了选举赢家。巨大的样本，致命的覆盖偏差。
无应答偏差——当不应答的人与应答的人不一样。如果忙碌的人、或不快乐的人、或注重隐私的人系统性地跳过调查，应答者就不再代表总体——而随着应答率多年来不断下滑，这是当代最主要的担忧。

两者共有一个签名：它们在你收集到的数据里看不见（应答者们单看自己一切正常），而且不会随着更多的回答而消失。你必须去推理谁缺席了、以及为什么。

用加权把它拉回形状

当一个样本失衡时——年轻人太少、来自某一座城市的人太多——你可以用加权部分地修补它。每个应答者被赋予一个权重，好让代表不足的组算得更重、代表过多的组算得更轻，把加权后样本的轮廓拉回来，去匹配已知的总体总数。

常见的技术是事后分层和迭代比例拟合（raking），它们轻推加权后的边际，去匹配年龄、性别、地区等的普查数字。这是一种强有力的校正——而它的诚实只到一个限度为止：加权能修好你能测量、并知道总体总数的那些变量上的失衡。它修不了你没测量的那些东西上的偏差，而且激进的加权会抬高方差（少数被重重加权的应答者会左右整个估计）。它是一块补丁，不是好抽样的替代品。

样本要多大？

来自统计学页的一个愉快的惊喜：一个估计的精度，主要取决于绝对样本量，而非占总体的比例。一个比例的误差幅度，随样本量的平方根缩小：

\text{MoE} \approx z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}

$\sqrt{n}$ 是那个陷阱：要把误差幅度减半，你必须把样本翻四倍。这就是为什么全国性民调都聚在 1,000–2,000 人左右（约 ±2–3%）——超过这个数，抽样误差已经很小，你得到的是递减的回报，而你真正应该担心的非抽样误差却纹丝不动。花钱去做一个更大的样本来修一个有偏的样本，是经典的资源错配。

它在我工作中的体现

这个数字有代表性吗？

作为一名政府分析师，大量工作都建立在从样本或调查算出来的数字之上——而这给我的最有价值的习惯，是在信任它们中任何一个之前，先问一句「代表什么？」。抽样框是什么，它漏掉了谁？选择是一种概率设计，还是一种无法泛化的自愿参加？最要紧的是，无应答的图景如何——因为那种静悄悄的、未被量化的偏差，正是把一个自信的统计量变成一个误导性统计量的那一个。

它也是批判性地读别人数字的透镜：一个自选样本上看起来很精确的「± 2%」是精确地错，而一个「加权使其有代表性」的数字，其好坏只取决于它据以加权的那些变量。知道抽样在哪里失败，正是把一个你能据以做汇报的数字，与一个你应当反驳的数字区分开来的东西——而它直接连到本板块别处的选择偏差与推断的想法。

60 秒回顾

一个小小的随机样本能代表一个庞大的总体——随机性是那座让你能泛化、并给它加上诚实误差棒的桥。
留意那些缝隙：总体 ≠ 抽样框（你从中抽取的名单）≠ 样本。抽样框会漏掉人——那就是覆盖。
概率抽样（简单／分层／整群／系统）让你能泛化；非概率（便利、自愿参加）则不能——一百万个自愿参加胜过空无一物，却输给一个好的、一千人的随机样本。
抽样误差小、可量化，随 $\sqrt{n}$ 缩小。非抽样误差（覆盖、无应答、糟糕的问题）更大、不被量化，且不随规模缩小。
致命的：覆盖偏差（《文学文摘》）与无应答偏差。加权/raking 修补已知的失衡——而非你没测量的那些。
要把误差幅度减半，把样本翻四倍。一个有偏估计周围一个更大的样本，是精确地错。

概率与非概率的区分、无应答/加权的实务，以及抽样与非抽样误差的取景，反映了当前的调查方法参考文献以及统计学课程。