Skip to content
知识

/knowledge/sampling-survey-methodology

抽样与调查方法

你可以靠询问几千人,就了解到关于数百万人的某些真实的东西——但前提是你用对方式挑选他们。你如何抽样,决定了一个数字到底有没有意义,而它的失败都是静悄悄的。

学于
抽样与调查方法基础 · 代表性
时间
统计学 · 墨尔本大学
应用于
信任一个抽样得来的数字
阅读 / 复习
约 15 分钟阅读2026-06-26

一项 1,500 人的民调竟声称能代表一个数百万人的国家——这里头有种近乎悖论的东西,然而,只要做得 对,它真的能,达到一种你能量化的精度。那种近乎魔法的本事,是抽样理论的成就:那套 挑选一小群人、使关于他们为真的东西可靠地对所有人都为真的规则。抽样抽对了,几千个回答就能告诉你 关于数百万人的事。抽错了,世上没有任何样本量能救你——那些著名的民调灾难全都是抽样的失败,而非 算术的失败。

这是信任任何从总体的一部分算出来的数字的根基,而在实践中几乎每个数字都是如此。这一页讲抽样如何 运作、为什么运作,以及——最重要的——它静悄悄失败的那些方式,因为一个有偏的样本会产出一个自信的、 精确的、彻底错误的答案。

01

为什么一个样本能代表所有人

前提是,你很少需要测量每一个人(一次普查)才能了解每一个人。一个挑得好的子集, 以一小部分的成本与时间,承载着整体的信息。关键词是挑得好——而让它运作的引擎, 是从概率页借来的一个单一想法:随机性

如果总体里的每一个成员都有一个已知的、非零的被选中机会,那么概率的法则就让你能从样本泛化到 总体,给这个泛化加上诚实的误差棒。把随机性拿掉,那座桥就塌了——你手里只有一堆来自 碰巧应答者的回答,谁也不特别代表。

02

总体、抽样框与样本

三个不同的东西不断地被混为一谈,而它们之间的缝隙正是偏差栖身之处:

  • 总体——你想对其下结论的所有人(所有合格选民、所有居民)。
  • 抽样框——你实际从中抽取的那份名单(选民名册、电话簿)。它是你对总体的操作性替身。
  • 样本——那些实际从抽样框里被选出并被测量的人。

至关重要、又容易错过的一点:抽样框几乎从来都不是总体。任何在总体里却不在名单上的人——没有 电话的人、未登记的、联系不上的——无法被抽到,无论你的方法多好。那道缝隙就是覆盖,也是一项研究静悄悄出错的第一个地方。

03

概率抽样:能泛化的方法

概率抽样(每个单元都有一个已知的被选中机会)是让你能泛化的东西。主要的设计有:

  • 简单随机抽样——每个单元可能性相等;干净的基线。
  • 分层抽样——把总体切成若干组(层:年龄、地区),在每组内抽样,保证每一组都按 比例被代表。当各层彼此相异时,更高效、更精确。
  • 整群抽样——随机挑出整组(学校、郊区),并调查被选中组里的每一个人。对分散的 总体更便宜,代价是损失一些精度。
  • 系统抽样——从一份有序名单里每隔 k 个取一个。简单,但要当心名单里隐藏的周期性。

04

两种误差——而更糟的那种是看不见的

这是把懂调查的人与不懂的人区分开来的那个区别:

  • 抽样误差——来自测量一个样本而非所有人的随机变异。它是可量化的(误差 幅度),随样本增大可预测地缩小,也是人人都会报告的那种误差。
  • 非抽样误差——其余的一切:覆盖缺口、无应答、措辞糟糕的问题、撒谎的应答者、 数据录入错误。它随样本量缩小,通常被量化,也正是那些重大而尴尬的失败的 来源。

05

会咬人的偏差

两种非抽样偏差,造成了现实世界里大多数的灾难:

  • 选择 / 覆盖偏差——当抽样框以一种与你所测量之物相关的方式,系统性地漏掉总体的 一部分。教科书案例:1936 年《文学文摘》的民调从汽车与电话登记册里抽了数百万人——在 大萧条时期他们比平均更富裕——并自信地预测错了选举赢家。巨大的样本,致命的覆盖偏差。
  • 无应答偏差——当不应答的人与应答的人不一样。如果忙碌的人、或不快乐的人、或注重 隐私的人系统性地跳过调查,应答者就不再代表总体——而随着应答率多年来不断下滑,这是当代最 主要的担忧。

两者共有一个签名:它们在你收集到的数据里看不见(应答者们单看自己一切正常),而且不会随着更多 的回答而消失。你必须去推理谁缺席了、以及为什么

06

用加权把它拉回形状

当一个样本失衡时——年轻人太少、来自某一座城市的人太多——你可以用加权部分地修补 它。每个应答者被赋予一个权重,好让代表不足的组算得更重、代表过多的组算得更轻,把加权后样本的 轮廓拉回来,去匹配已知的总体总数。

常见的技术是事后分层迭代比例拟合(raking),它们轻推加权后的边际, 去匹配年龄、性别、地区等的普查数字。这是一种强有力的校正——而它的诚实只到一个限度为止:加权能修好你能测量、并知道总体总数的那些变量上的失衡。它修不了你没测量的那些东西上的 偏差,而且激进的加权会抬高方差(少数被重重加权的应答者会左右整个估计)。它是一块补丁, 不是好抽样的替代品。

07

样本要多大?

来自统计学页的一个愉快的惊喜:一个估计的精度,主要 取决于绝对样本量,而非占总体的比例。一个比例的误差幅度,随样本量的平方根缩小:

MoEzp^(1p^)n\text{MoE} \approx z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}

n\sqrt{n} 是那个陷阱:要把误差幅度减半,你必须把样本翻四倍。这就是为什么全国性民调都聚在 1,000–2,000 人左右(约 ±2–3%)——超过这个数, 抽样误差已经很小,你得到的是递减的回报,而你真正应该担心的抽样误差却纹丝不动。花钱 去做一个更大的样本来修一个有偏的样本,是经典的资源错配。

08

它在我工作中的体现

09

60 秒回顾

概率与非概率的区分、无应答/加权的实务,以及抽样与非抽样误差的取景,反映了当前的调查方法参考 文献以及统计学课程。