SQL 与数据查询

大多数数据分析都始于一个看似简单的问题：我该如何从数据库里恰好取出我需要的那些行？这个答案，五十年来且还在继续，是 SQL——结构化查询语言。它活得比无数更时髦的工具都长，因为它在某件根本性的事情上做对了；而对一名分析师而言，它是所有技能里用得最多的：在你建模、可视化、或报告任何东西之前，你都得先查询它。

这一页是干活的分析师的 SQL——不是一份语法参考，而是把一个与语言搏斗的人、和一个对它流利的人区分开来的那少数几个想法：一个查询实际上如何执行、连接到底做什么、窗口函数这一现代超能力，以及那个至少会逮到每个人一次的陷阱（NULL）。它是数据库系统页的实用伴侣——那一页是理论，这一页是技能。

为什么 SQL 历久不衰

SQL 的长寿来自一个设计选择：它是声明式的。你描述你想要什么，而非如何得到它。你不写遍历行的循环，也不指定该用哪个索引——你陈述你想要的结果，而数据库的查询优化器会找出产生它的最高效方式。

那是一种深刻的关注点分离。你的查询保持为一个清晰的意图陈述，而引擎处理那些杂乱的机制；同样的查询，在数据从数千行长到数十亿行时仍然能用。这也是为什么 SQL 读起来几乎像英语——一个长处，它藏起了初学者会弄错的那一件事，也就是下一节。

核心动词

一个查询的主干，是一小组子句，每一个做一件事。一个把它们全用上的查询：

SELECT   department, COUNT(*) AS staff
FROM     employees
WHERE    start_date >= '2020-01-01'
GROUP BY department
HAVING   COUNT(*) > 5
ORDER BY staff DESC;

SELECT——要返回哪些列（以及计算出来的值）。
FROM——从哪个（些）表里拉取。
WHERE——在分组之前过滤单独的行。
GROUP BY——把行折叠成组以做聚合（COUNT、SUM、AVG）。
HAVING——过滤那些组（在聚合之后）——它与 WHERE 的区别，不断地把人绊倒。
ORDER BY——对最终结果排序。

它真正的运行顺序

这是关于 SQL 最能让人豁然开朗的一个事实：它并不按你书写的顺序执行。你先写 SELECT，但数据库几乎最后才运行它。逻辑执行顺序是：

SQL 的逻辑执行顺序。你先写 SELECT，但它第六个才运行——FROM 与 WHERE 先挑出并过滤行，然后分组，然后 SELECT 计算它的列，然后 ORDER BY 排序。这个顺序，解释了那些否则显得任意的规则。

这个顺序不是冷知识——它解释了那些否则显得任意的规则。为什么你不能在 WHERE 里用一个 SELECT 别名？因为 WHERE 在 SELECT 存在之前就运行了。为什么 WHERE 过滤行、而 HAVING 过滤组？因为 WHERE 在分组之前运行、HAVING 在之后。为什么一个窗口函数不能放进 WHERE？同样的原因——它在 SELECT 处才被计算，太晚了，没法据以过滤（把它包进一个 CTE 里，在外面过滤）。把这个顺序内化，一打「坑」就变得显而易见。

连接：合并表

数据住在分开的表里（顾客在这边，订单在那边），而连接按一个共享的键，把它们重新缝合起来。你需要的四种：

INNER JOIN——只要在两个表里都匹配的行。
LEFT JOIN——左表的每一行，加上右表的匹配（没有匹配处填 NULL）。分析师的主力——「所有顾客，连同他们的订单（如果有）」。
RIGHT JOIN——镜像（很少需要；把表对调一下即可）。
FULL OUTER JOIN——两个表的每一行，能匹配处就匹配。

窗口函数：现代的超能力

窗口函数是把 SQL 从一门检索语言变成一门分析语言的那个特性。一个普通的聚合（GROUP BY）把行折叠成一个汇总行。一个窗口函数则跨一组相关的行进行计算，同时保留每一行——于是你可以把一个累计总和、一个排名、或者「与上个月相比」就放在每一条记录的旁边。

SELECT  month, revenue,
        SUM(revenue) OVER (ORDER BY month)          AS running_total,
        revenue - LAG(revenue) OVER (ORDER BY month) AS change_vs_prev,
        RANK() OVER (ORDER BY revenue DESC)         AS rank
FROM    monthly_sales;

OVER (...) 子句定义了要在其上计算的那个行的「窗口」——PARTITION BY 切成若干组，ORDER BY 在组内排序。累计总和、组内排名、环比变化、移动平均、「每类别前 N 名」——所有那些过去需要别扭的自连接的问题，都变成干净的一行。它们在 SELECT 这一步才被计算，而这正是为什么你不能直接据以过滤（又回到了执行顺序）。

CTE：可读的、分层的逻辑

真实的问题需要好几步，而写它们的错误方式，是一座要从里往外读的嵌套子查询的金字塔。一个公用表表达式（WITH 子句）给每一步命名，好让查询像一份食谱那样从上读到下：

WITH recent AS (
    SELECT * FROM orders WHERE order_date >= '2026-01-01'
),
by_customer AS (
    SELECT customer_id, SUM(amount) AS total
    FROM recent
    GROUP BY customer_id
)
SELECT * FROM by_customer WHERE total > 1000;

每个 CTE 都是一个有名字的、可复用的构件。查询于是变成一连串清晰的阶段，而非一团乱麻——更容易读、调试、并交给别人。对一名查询必须能被别人理解并重跑的分析师来说，这种可读性不是奢侈品。

NULL 陷阱

那个最终会逮到每个人的 bug：在 SQL 里，NULL 不是指零或空——它是指未知。而因为「未知」会感染任何比较，SQL 运行在三值逻辑之上：TRUE、FALSE，以及 UNKNOWN。

它在我工作中的体现

每一次分析的起点

SQL 是我在几乎任何任务里第一个伸手去拿的工具——数据住在数据库里，而取出对的行，是任何分析之前的第零步。这里的流利每天都有回报：知道执行顺序意味着我写的查询第一次就能跑通，窗口函数把「累计总和」或「组内排名」变成一行而非一种变通办法，而 CTE 让一个复杂的提取保持得足够可读，从而能被检查和复用。

而那些陷阱，恰恰是那些静悄悄产出错误数字的——一次连接扇出把总和翻倍、一次 NULL 比较悄悄丢掉我本想保留的行。逮住它们，正是一个看起来对的查询、和一个确实对的查询之间的差别。它与数据准备（查询正是准备开始之处）以及可复现性（一个保存好的、受版本控制的查询是一个可重跑的步骤）相配。

60 秒回顾

SQL 历久不衰，因为它是声明式的——说出你想要什么，让优化器去找怎么做。每一次分析背后的技能。
核心动词：SELECT / FROM / WHERE / GROUP BY / HAVING / ORDER BY。WHERE 过滤行， HAVING 过滤组。
它按 FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY 运行，而非从上到下——这解释了每一个「我为什么不能……」的坑（别名、WHERE 里的窗口函数）。
连接合并表；LEFT JOIN 是主力。当心扇出——一个不唯一的键会让行翻倍、悄悄夸大总和。要知道粒度。
窗口函数（OVER）跨行计算却保留每一行——累计总和、排名、lag。CTE（WITH）让多步逻辑变得可读。
NULL = 未知 → 三值逻辑。NULL = NULL 不是 TRUE；用 IS NULL。!= 会悄悄丢掉 NULL 行。显式地处理它。

逻辑执行顺序的取景、窗口函数的位置，以及 NULL 三值逻辑的告诫，反映了当前的 SQL 参考文献以及课程。