应用数据科学

本板块的每一页都教一件工具——数学、统计、模型、系统。应用数据科学这一页讲的是这些工具如何拼合成一个真实的项目：从一个半成形的业务问题，到某人因你的工作而做出的一个决策，这段杂乱的、端到端的旅程。工具是必要的；而懂得如何把项目围绕它们运转起来，才是让一名数据科学家有效的东西。

这里最重要的单一想法——也是真正属于我自己的那个——是问题优先，而非模型优先。从需要做出的决策、以及做好它所需的最少数据出发，再去拿对的工具，而不是时髦的工具。这一页是其余一切的综合，围绕那条原则来组织。

决策，而非模型

人们很容易以为数据科学是关于构建模型的。它不是——它是关于用数据改进决策，而模型只是达成那个目的的一种可能手段。极多的问题靠一张清晰的图表、一个框定得当的指标，或一次简单的查询就解决了，根本不见模型的影子。把工具（建模）误当成目标（一个更好的决策），是这个领域里最常见、也最昂贵的错误。

所以应用数据科学是以影响、而非精巧来评判的。一个改变了某人行为的简单分析，胜过一个搁置不用的优雅模型。那一次重新取景——从「我能构建什么？」到「我能改进哪个决策，以及做到这点我最少需要什么？」——就是全部的心态。

项目生命周期

真实的项目遵循一条可辨认的弧线，被诸如 CRISP-DM（跨行业数据挖掘标准流程）这样的框架所刻画。它的六个阶段是一张有用的地图——只要你记住关于它们最重要的一点：它是一个循环，而非一条直线。你会不断地绕回去，因为你在一个阶段里学到的东西，会重塑更早的某个阶段。

CRISP-DM 循环。理解问题 → 理解数据 → 准备数据 → 建模 → 评估 → 部署——并随着发现重塑更早的步骤而不断绕回。箭头是双向的；真实的项目是迭代的，而非线性的。

框定正确的问题

第一个阶段决定项目是否成功，而它与代码毫无关系。业务理解意味着把一个模糊的请求（「我们这儿能用 AI 吗？」）翻译成一个精确、可回答、且与某个决策挂钩的问题：答案会改变哪个选择、「好」会是什么样子、以及最简单的、能派上用场的结果是什么？

这正是大多数项目悄然失败之处——不在建模，而在精确地解决了错误的问题。对错误问题的一个绝妙答案一文不值，所以纪律在于：在碰数据之前，去回推、澄清、重新框定。把这个做对，其余便是执行；把它做错，再多的技术本领也救不了你。

数据与建模

项目的中段是其他页面所涵盖的手艺——而应用数据科学很大程度上在于以正确的顺序去做它们，并且不跳过那些不光鲜的部分：

理解并准备数据——先探索它，再清洗并塑形。这是数据处理的工作，仍占去大部分功夫；数据通常住在一个你用 SQL 查询的数据库里。
建模——挑选最简单的、贴合问题的方法，无论那是一个回归、一个机器学习模型，还是仅仅一个选得好的统计量。先从一个基线开始。
评估——诚实地、在留出的数据上、用一个与「出错的现实代价」相匹配的指标（来自统计页与 ML 页的教训）。并且要对照决策来评估，而不只是排行榜。

应用的本领不在于懂每一个算法——而在于选出能回答问题的、复杂度最低的那个，并抵住过度工程的拉力。

部署与监控

一个从不离开你笔记本电脑的结果，什么都改变不了。部署就是把工作放到它能起作用的地方——一个利益相关方会用的仪表板、一份在决策会议上的报告、一个接进系统里的模型。这往往是最难、最少被教授的部分，也是数据科学与真正的工程相遇之处。

而部署并非终点，因为模型是一个产品，不是一份交付物。世界在变，所以喂给模型的数据会漂移，离开它当初训练时的样子，性能则悄然衰减。于是你在生产中监控它，并在它下滑时重训——来自 ML 一侧的数据漂移教训。在第一个版本发布之后，这份工作还会持续很久。

传达结果

整条流水线中最被低估的技能：一个没人理解或信任的正确分析，影响为零。沟通——把技术发现翻译成一个决策者能据以行动的清晰故事——正是把好的分析转化为好的决策的东西。它重要到足以拥有自己的一页（科学传播），但它也属于生命周期：你从第一个阶段起就应当思考自己将如何解释结果，因为这会塑造什么才值得做。

伦理与可复现性

与数据打交道带着责任，而有两条线索贯穿每一个阶段。可复现性意味着从原始数据到结果的整条路径都是任何人都能重跑、得到相同答案的代码——来自数据处理页的标准，也是让工作可审计、可信赖的东西。伦理意味着认真对待你所构建之物的偏见、隐私、公平与后果——一个在有偏数据上训练的模型会把那种偏见固化下来，而在政府与健康工作中，赌上的是活生生的人。这些不是一份最后才过的清单；它们是你从第一个问题一直背到最后一次部署的约束。

问题优先

把这一切串起来，你得到的是一种哲学，而不只是一道流程。问题优先，而非模型优先：从决策出发，找出做好它所需的最少数据与最简单的方法，并看重影响胜于精巧。正是它让同一个人能在科研实验室、政府情报团队和工程项目里都派上用场——因为即便工具在变，框架始终不变。

它在我工作中的体现

贯穿每一个角色的那条线

这是我最接近于个人工作准则的东西，在我担任过的每一个角色里都是一样的——从需要做出的决策、以及做好它所需的最少数据出发，再去拿对的工具，而非时髦的那个。这就是为什么我能在科研实验室、政府情报团队与一家创业公司之间穿梭：数学与模型在变，但问题优先的生命周期不变。

在实践中，它表现为克制，也表现为善始善终——在构建任何东西之前先回推以框定真正的问题，去拿能回答它的最简单的方法，对照决策而非一个指标来评估，并把结果当作一件必须被传达、部署、维护才能产生意义的东西。天性是通才，训练成专才——这一页就是那句话在日常中究竟意味着什么。