地理空间分析与 GIS

几乎每个数据集都附带一个位置——一个地址、一个邮编、一组坐标——而一旦你把它放到地图上，就会浮现出任何表格都无法揭示的模式：聚集、空缺、热点、走廊。地理空间分析就是处理那个「在哪里」的学科，而 GIS（地理信息系统）是为它服务的软件。它确实是自成一门的领域，因为空间数据打破了统计其余部分悄悄依赖的一些假设。

它也是我政府工作的核心部分——南澳的社会与运营数据深具空间性。这一页是实用的基础：数据类型、少数几个要紧的概念，以及——重要的是——空间分析在你不小心时具体会怎样误导你。

为什么位置不一样

空间数据并不只是多了两列的数据。它带着一条深刻的原理，常被称为地理学第一定律：万物彼此相关，但近处之物比远处之物更相关。犯罪、疾病、收入、房价—— 它们在空间上聚集，而那种聚集通常正是你在意的信号。

同样这种聚集，也是为什么普通统计在空间数据上会误导：标准方法假设观测彼此独立，但相邻的地方并不独立——它们互相影响、彼此相像。所以空间分析需要它自己的工具，以及对盲目套用非空间工具的一份健康的警惕。

矢量与栅格

地理数据有两种基本形式，而知道你手上是哪一种，会塑造一切：

矢量——离散的形状：点（一起事件、一个地址）、线（道路、河流）、以及多边形（街区、议会辖区、州）。每个都附带属性，像表中的行。最适合分明的要素与边界。
栅格——一张连续的单元格网格，每格持有一个值：一幅卫星图像、一个高程面、一张热力图。最适合在空间上连续变化的事物（温度、降雨、密度）。

大多数分析工作——把记录连到区域、按地区映射比率——都是矢量。栅格则用于影像、地形与连续面。许多真实项目会把两者一起用。

坐标与投影

地球是个球体；地图是平的。把前者压到后者上就是一次投影，而要做这件事就无法不扭曲某样东西——面积、形状、距离或方向。每个空间数据集都带着一个坐标参考系统（CRS），说明它的坐标如何映射到真实位置，而无声的空间 bug 最常见的来源，就是把处于不同 CRS 的数据集混在一起。

空间连接

空间分析的主力操作是空间连接——按位置而非按一个共享的键来合并数据集。它不是「在 ID 相等处匹配」（数据库连接），而是「在几何关系成立处匹配」：这个点落在哪个街区里？哪些事件在距这个地点 500 米以内？每个议会辖区里坐落着多少个地址？

这正是你把一列事件连到你想用来分析它们的区域的方式——也是从原始点通往你能映射、能比较的区域级比率的桥梁。它是那个把整个关系世界绑在一起的连接在空间上的对应物，且同样核心。

把等值区域图做对

等值区域图——按一个值给区域着色——是最常见的专题地图，也是最常被做错的。两条规则，区分了一张诚实的地图与一张误导的地图。

第一，归一化：给比率着色，而非原始计数。一张「每个街区的案件数」地图，大多显示的是人在哪里——大的或人口稠密的区域之所以亮起来，仅仅因为它们大。换成一个比率（每千人的案件数、每平方公里的事件数），这样你才是在同类相比。等值区域图是给归一化的数值数据用的，而非原始总数，也非类别。

第二，刻意地选择分级。你如何把数值分桶到颜色带——等间距、分位数，或自然断点（Jenks）——会改变哪些区域看起来高或低，并可能彻底改写故事。没有唯一正确的选择，但有一份责任：选一个反映真实分布的，而非一个迎合你论点的。

MAUP 陷阱

空间分析中最深的陷阱有一个不光鲜的名字：可变面积单元问题（MAUP）。它说，当你把点数据聚合进区域时，你所选的边界能改变——甚至反转——你的结果。同样的底层数据，会因你如何切割地图而讲出不同的故事。它有两副面孔：

尺度效应——单元的大小。聚合到州、到议会辖区、或到小的普查街区，同样的数据会显示不同的模式，哪怕没有任何真实的东西改变。
分区效应——单元的形状。在同一尺度上重画边界（不同的区、不同的分组），结果就会变——正是「不公正划区」（gerrymandering）背后的机制。

分区效应，具体来看。两个面板里是完全相同的点——只是边界被重画了。竖直划分时左侧区域是「热点」（7 对 5）；改成水平划分，则上方区域胜出（8 对 4）。同样的数据，相反的结论——纯粹来自边界的选择。

教训不是空间分析没救——而是地理单元的选择是一个有真实后果的、真实的分析决策，而非一个中立的既定前提。明确说出你为什么选了你所选的单元，并检查你的结论是否能在另一种选择下存活。

空间自相关

因为近处之物彼此相像，空间数据呈现出空间自相关——相邻的区域往往有相似的值。像 Moran's I 这样的度量把它量化：这个模式是聚集的（高值挨着高值）、离散的，还是随机的？探测并定位簇——高值的热点与低值的冷点——往往就是整个分析的全部要点。

它对诚实也要紧：空间自相关违反了普通回归背后的独立性假设，所以一个在空间数据上的天真模型会低估它的不确定性，并能制造出本不存在的显著性。修法是把邻居关系内建进去的空间模型——建模页上那些方法的空间表亲。

常见陷阱

一份对咬得最狠的错误的速查指南：

CRS 不匹配——对不齐的图层；永远先检查。
映射原始计数——你画出来的是一张人口图；归一化为比率。
挑拣过的分级——为迎合故事而选的颜色带。
无视 MAUP——把某一套边界当作真理。
在空间数据上用非空间统计——无视自相关、夸大显著性。

它在我工作中的体现

60 秒回顾

大多数数据都有一个「在哪里」，而近处之物比远处之物更相关——所以空间数据会聚集，并打破普通统计所假设的独立性。
两种数据类型：矢量（点/线/多边形）与栅格（一张值网格）。永远检查 CRS / 投影——不匹配是头号无声 bug。
空间连接按位置而非键来匹配（这个点在哪个街区？）——从点通往区域比率的桥梁。
等值区域图：给比率而非原始计数着色，并刻意选择分级（等间距 / 分位数 / 自然断点）。
MAUP：你所选的边界（尺度 + 分区）能改变或反转结果——单元的选择是一个真实的决策。
空间自相关（Moran's I）找出热点——也意味着为了诚实的推断，你需要空间模型，而非天真的回归。

本页上关于等值区域图、分级与 MAUP 的指引，反映了当前的制图学与空间分析参考文献，以及亲身的政府工作。