/knowledge/sampling-survey-methodology
抽样与调查方法
你可以靠询问几千人,就了解到关于数百万人的某些真实的东西——但前提是你用对方式挑选他们。你如何抽样,决定了一个数字到底有没有意义,而它的失败都是静悄悄的。
- 学于
- 抽样与调查方法基础 · 代表性
- 时间
- 统计学 · 墨尔本大学
- 应用于
- 信任一个抽样得来的数字
- 阅读 / 复习
- 约 15 分钟阅读2026-06-26
一项 1,500 人的民调竟声称能代表一个数百万人的国家——这里头有种近乎悖论的东西,然而,只要做得 对,它真的能,达到一种你能量化的精度。那种近乎魔法的本事,是抽样理论的成就:那套 挑选一小群人、使关于他们为真的东西可靠地对所有人都为真的规则。抽样抽对了,几千个回答就能告诉你 关于数百万人的事。抽错了,世上没有任何样本量能救你——那些著名的民调灾难全都是抽样的失败,而非 算术的失败。
这是信任任何从总体的一部分算出来的数字的根基,而在实践中几乎每个数字都是如此。这一页讲抽样如何 运作、为什么运作,以及——最重要的——它静悄悄失败的那些方式,因为一个有偏的样本会产出一个自信的、 精确的、彻底错误的答案。
01
为什么一个样本能代表所有人
前提是,你很少需要测量每一个人(一次普查)才能了解每一个人。一个挑得好的子集, 以一小部分的成本与时间,承载着整体的信息。关键词是挑得好——而让它运作的引擎, 是从概率页借来的一个单一想法:随机性。
如果总体里的每一个成员都有一个已知的、非零的被选中机会,那么概率的法则就让你能从样本泛化到 总体,并给这个泛化加上诚实的误差棒。把随机性拿掉,那座桥就塌了——你手里只有一堆来自 碰巧应答者的回答,谁也不特别代表。
02
总体、抽样框与样本
三个不同的东西不断地被混为一谈,而它们之间的缝隙正是偏差栖身之处:
- 总体——你想对其下结论的所有人(所有合格选民、所有居民)。
- 抽样框——你实际从中抽取的那份名单(选民名册、电话簿)。它是你对总体的操作性替身。
- 样本——那些实际从抽样框里被选出并被测量的人。
至关重要、又容易错过的一点:抽样框几乎从来都不是总体。任何在总体里却不在名单上的人——没有 电话的人、未登记的、联系不上的——无法被抽到,无论你的方法多好。那道缝隙就是覆盖,也是一项研究静悄悄出错的第一个地方。
03
概率抽样:能泛化的方法
概率抽样(每个单元都有一个已知的被选中机会)是让你能泛化的东西。主要的设计有:
- 简单随机抽样——每个单元可能性相等;干净的基线。
- 分层抽样——把总体切成若干组(层:年龄、地区),在每组内抽样,保证每一组都按 比例被代表。当各层彼此相异时,更高效、更精确。
- 整群抽样——随机挑出整组(学校、郊区),并调查被选中组里的每一个人。对分散的 总体更便宜,代价是损失一些精度。
- 系统抽样——从一份有序名单里每隔 k 个取一个。简单,但要当心名单里隐藏的周期性。
04
两种误差——而更糟的那种是看不见的
这是把懂调查的人与不懂的人区分开来的那个区别:
- 抽样误差——来自测量一个样本而非所有人的随机变异。它是可量化的(误差 幅度),随样本增大可预测地缩小,也是人人都会报告的那种误差。
- 非抽样误差——其余的一切:覆盖缺口、无应答、措辞糟糕的问题、撒谎的应答者、 数据录入错误。它不随样本量缩小,通常不被量化,也正是那些重大而尴尬的失败的 来源。
05
会咬人的偏差
两种非抽样偏差,造成了现实世界里大多数的灾难:
- 选择 / 覆盖偏差——当抽样框以一种与你所测量之物相关的方式,系统性地漏掉总体的 一部分。教科书案例:1936 年《文学文摘》的民调从汽车与电话登记册里抽了数百万人——在 大萧条时期他们比平均更富裕——并自信地预测错了选举赢家。巨大的样本,致命的覆盖偏差。
- 无应答偏差——当不应答的人与应答的人不一样。如果忙碌的人、或不快乐的人、或注重 隐私的人系统性地跳过调查,应答者就不再代表总体——而随着应答率多年来不断下滑,这是当代最 主要的担忧。
两者共有一个签名:它们在你收集到的数据里看不见(应答者们单看自己一切正常),而且不会随着更多 的回答而消失。你必须去推理谁缺席了、以及为什么。
06
用加权把它拉回形状
当一个样本失衡时——年轻人太少、来自某一座城市的人太多——你可以用加权部分地修补 它。每个应答者被赋予一个权重,好让代表不足的组算得更重、代表过多的组算得更轻,把加权后样本的 轮廓拉回来,去匹配已知的总体总数。
常见的技术是事后分层和迭代比例拟合(raking),它们轻推加权后的边际, 去匹配年龄、性别、地区等的普查数字。这是一种强有力的校正——而它的诚实只到一个限度为止:加权能修好你能测量、并知道总体总数的那些变量上的失衡。它修不了你没测量的那些东西上的 偏差,而且激进的加权会抬高方差(少数被重重加权的应答者会左右整个估计)。它是一块补丁, 不是好抽样的替代品。
07
样本要多大?
来自统计学页的一个愉快的惊喜:一个估计的精度,主要 取决于绝对样本量,而非占总体的比例。一个比例的误差幅度,随样本量的平方根缩小:
是那个陷阱:要把误差幅度减半,你必须把样本翻四倍。这就是为什么全国性民调都聚在 1,000–2,000 人左右(约 ±2–3%)——超过这个数, 抽样误差已经很小,你得到的是递减的回报,而你真正应该担心的非抽样误差却纹丝不动。花钱 去做一个更大的样本来修一个有偏的样本,是经典的资源错配。
08
它在我工作中的体现
09
60 秒回顾
概率与非概率的区分、无应答/加权的实务,以及抽样与非抽样误差的取景,反映了当前的调查方法参考 文献以及统计学课程。