/knowledge/data-visualisation
数据可视化与感知
一张好图表不是装饰——它是一种借用眼睛巨大带宽、免费做统计的方式。但这只有在你尊重人的感知究竟如何读一幅画时才奏效。
- 学于
- 数据可视化与数据的感知基础 · 看见数据
- 时间
- 数据科学 · 墨尔本大学
- 应用于
- 我交付的每一张图表
- 阅读 / 复习
- 约 14 分钟阅读2026-06-26
可视化常被当作最后那个好看的步骤——做一张图、把颜色弄整齐、发布。这严重低估了它。一张做得好的 图表,让读者一眼就看见一个模式、一处缺口或一个离群点——而那要用好几段话来描述、 用一张表来藏起来。它之所以有效,是因为人的视觉系统是一个大规模并行的模式发现器,而一张好图表 把活儿交给它。一张坏图表则与它作对。
所以思考可视化的正确方式不是美学——而是感知。一旦你知道眼睛自动做什么、它准确 判断什么、它会弄错什么,好图表的规则就不再是任意的品味,而变成接近工程的东西。这是本页的贯穿线。
01
我们为什么画数据
眼睛与视觉皮层并行地、前意识地处理巨量的信息——远多于我们用来读数字的那条缓慢、串行的通道。 一张一千行的表是一千次串行的读取;同样的数据作为一张散点图则是一瞥。可视化把一个认知任务(计算、比较、记忆)转换成一个感知任务(看、见),而感知是更快、带宽更高的系统。
著名的演示是 Anscombe 四重奏:四个数据集,均值、方差与相关几乎完全相同,画出来 却截然不同——一个线性、一个弯曲、一个被单个离群点拽着一条线。汇总统计藏起了一张图所揭示的 东西。这一句话道尽了可视化的理由:图画承载着数字压平掉的结构。
02
前注意处理:眼睛免费做的事
有些视觉属性是前注意地被处理的——自动地、在几分之一秒内、在有意识的注意介入 之前。一片灰点中的一个红点会「跳出来」;你不去搜寻它,你就是看见了它。这些前注意属性包括颜色(色相)、大小、朝向、位置与形状。
这是可视化中最强大的杠杆,因为它实际上是免费的注意力。把你想让人注意的东西编码进一个前注意 属性,读者就会即刻注意到它。反面是个警告:如果一切都加粗、都彩色,就什么都跳不出来—— 你把预算花在了噪声上。前注意的强调只有在它稀缺时才奏效。
03
准确度的阶梯
并非所有编码一个数字的方式都同样可读。Cleveland 与 McGill 做了实验,按人们判断底层数量有多准确,给视觉编码排了序。顺序,最准确的在前:
实用的规则直接落出来:把你最重要的比较匹配到可用的最高准确度的编码上。这正是 条形图通常胜过饼图的真正原因——比较条形的长度/位置容易而精确,比较饼图的角度则困难而易错。这不是势利;而是其中一个比另一个对读者的眼睛要求更多。
04
选择图表:从问题出发
图表类型不是一个风格选择——它由你在回答什么问题而定。一张速查图:
- 比较(哪个更大?)→ 条形图、点图。
- 随时间的趋势 → 折线图。
- 关系(两个变量是否一起变动?)→ 散点图。
- 分布(散布如何?)→ 直方图、箱线图、密度图。
- 构成(整体的各部分)→ 堆叠条形;饼图只用于寥寥几块,而且即便如此也是勉强。
先定问题,挑出对它读起来最准确的编码,然后才去操心外观。一张回答了错误问题的漂亮图表,仍然是 错误的图表。
05
把颜色用对
颜色强大,也容易误用。第一条规则是把颜色标度的类型与数据的类型相匹配:
- 顺序型——单一色相由浅到深,用于有序/定量数据(从低到高)。越多越深。
- 发散型——两种色相在一个中性中点相遇,用于有一个有意义中心的数据(高于/低于零、 高于/低于目标)。
- 类别型——为无序的组用不同的色相;保持在寥寥几个,因为人一次追踪不了很多颜色。
06
图表犯罪与诚实
因为图表如此有说服力,它们很容易被用来误导——有时是故意,常常是无心。常见的罪行:
- 截断的坐标轴。让一张条形图的 y 轴从零以上开始,会把小差异夸大成戏剧性的。 条形编码的是长度,所以它们必须从零开始。(一个指数的折线图有更多余地,但要标清楚。)
- 双 y 轴。一张图上两个不同的标度,让你能通过滑动坐标轴直到两条线对齐来制造 一个「相关」。通常最好避开。
- 3D 与装饰。3D 饼图与透视扭曲了它们所编码的那些面积/角度。装饰主动地腐蚀了 数据。
- 过度绘制。成千上万的点堆成一个不透明的团,藏起了密度。使用透明度、分箱或 抽样,好让结构显现。
诚实的检验:一个瞥两秒的读者,会带走真正的要点吗?如果视觉编码把他们推向一个错误的 结论,那么即便每个数字都正确,这张图表也在撒谎。
07
数据墨水与去杂
Edward Tufte 经久不衰的想法是数据墨水比:一张图表上所有的墨水(像素)中,真正 编码数据、而非装饰的占多少?把它最大化。每一条网格线、厚重的边框、背景填充、投影与多余的 标签,都是图表垃圾,在与信号争夺读者的注意力。
去杂大多是减法:弱化或移除网格线、去掉图表边框、直接标注而非通过一个遥远的图例,并删掉任何 无助于读者回答问题的东西。目标与「更唬人」相反——是让数据成为页面上最响亮的东西。这直接连到清晰地传达:一张去过杂的图表是一句清楚的 话,而非一个繁忙的段落。
08
它在我工作中的体现
09
60 秒回顾
编码排序(Cleveland-McGill)、前注意处理与颜色无障碍指引,反映了当前的数据可视化与感知参考 文献,以及课程学习。