Skip to content
知识

/knowledge/applied-data-science

应用数据科学

把其余一切串起来的一页。这里的每个其他主题都是一件工具;而这一页讲的是它们如何嵌进一个真实的项目——从一个模糊的问题,到某人据以行动的一个决策。

学于
应用数据科学理学学士 · 数据科学核心(79)
时间
墨尔本大学,2019–2022
应用于
每个项目,端到端
阅读 / 复习
约 15 分钟阅读2026-06-25

本板块的每一页都教一件工具——数学统计模型系统应用数据科学这一页 讲的是这些工具如何拼合成一个真实的项目:从一个半成形的业务问题,到某人因你的工作而 做出的一个决策,这段杂乱的、端到端的旅程。工具是必要的;而懂得如何把项目围绕它们运转 起来,才是让一名数据科学家有效的东西。

这里最重要的单一想法——也是真正属于我自己的那个——是问题优先,而非模型优先。从需要做出的决策、以及做好它所需的最少数据出发,再去拿对的工具,而不是 时髦的工具。这一页是其余一切的综合,围绕那条原则来组织。

01

决策,而非模型

人们很容易以为数据科学是关于构建模型的。它不是——它是关于用数据改进决策,而 模型只是达成那个目的的一种可能手段。极多的问题靠一张清晰的图表、一个框定得当的指标, 或一次简单的查询就解决了,根本不见模型的影子。把工具(建模)误当成目标(一个更好的 决策),是这个领域里最常见、也最昂贵的错误。

所以应用数据科学是以影响、而非精巧来评判的。一个改变了某人行为的简单分析,胜过一个 搁置不用的优雅模型。那一次重新取景——从「我能构建什么?」到「我能改进哪个决策,以及 做到这点我最少需要什么?」——就是全部的心态。

02

项目生命周期

真实的项目遵循一条可辨认的弧线,被诸如 CRISP-DM(跨行业数据挖掘标准 流程)这样的框架所刻画。它的六个阶段是一张有用的地图——只要你记住关于它们最重要的 一点:它是一个循环,而非一条直线。你会不断地绕回去,因为你在一个 阶段里学到的东西,会重塑更早的某个阶段。

问题数据准备建模评估部署迭代
CRISP-DM 循环。理解问题 → 理解数据 → 准备数据 → 建模 → 评估 → 部署——并随着发现重塑更早的步骤而不断绕回。箭头是双向的;真实的项目是迭代的,而非线性的。

03

框定正确的问题

第一个阶段决定项目是否成功,而它与代码毫无关系。业务理解意味着把一个 模糊的请求(「我们这儿能用 AI 吗?」)翻译成一个精确、可回答、且与某个决策挂钩的 问题:答案会改变哪个选择、「好」会是什么样子、以及最简单的、能派上用场的结果是什么?

这正是大多数项目悄然失败之处——不在建模,而在精确地解决了错误的问题。对错误问题的一个 绝妙答案一文不值,所以纪律在于:在碰数据之前,去回推、澄清、重新框定。把这个 做对,其余便是执行;把它做错,再多的技术本领也救不了你。

04

数据与建模

项目的中段是其他页面所涵盖的手艺——而应用数据科学很大程度上在于以正确的顺序去做 它们,并且不跳过那些不光鲜的部分:

  • 理解并准备数据——先探索它,再清洗并塑形。这是数据处理的工作,仍占去 大部分功夫;数据通常住在一个你用 SQL 查询的数据库里。
  • 建模——挑选最简单的、贴合问题的方法,无论那是一个回归、一个机器学习模型,还是 仅仅一个选得好的统计量。先从一个基线开始。
  • 评估——诚实地、在留出的数据上、用一个与「出错的现实代价」相匹配的指标 (来自统计页与 ML 页的教训)。并且要对照决策来评估,而不只是排行榜。

应用的本领不在于懂每一个算法——而在于选出能回答问题的、复杂度最低的那个,并抵住过度 工程的拉力。

05

部署与监控

一个从不离开你笔记本电脑的结果,什么都改变不了。部署就是把工作放到它能 起作用的地方——一个利益相关方会用的仪表板、一份在决策会议上的 报告、一个接进系统里的模型。这往往是最难、最少被教授的部分,也是数据科学与真正的工程 相遇之处。

而部署并非终点,因为模型是一个产品,不是一份交付物。世界在变,所以 喂给模型的数据会漂移,离开它当初训练时的样子,性能则悄然衰减。于是你在生产中监控它,并在它下滑时重训——来自 ML 一侧的数据漂移教训。在 第一个版本发布之后,这份工作还会持续很久。

06

传达结果

整条流水线中最被低估的技能:一个没人理解或信任的正确分析,影响为零。沟通——把技术发现翻译成一个决策者能据以行动的清晰故事——正是把好的分析转化为好的决策的 东西。它重要到足以拥有自己的一页(科学传播),但它也属于生命周期:你从第一个阶段起就 应当思考自己将如何解释结果,因为这会塑造什么才值得做。

07

伦理与可复现性

与数据打交道带着责任,而有两条线索贯穿每一个阶段。可复现性意味着从原始 数据到结果的整条路径都是任何人都能重跑、得到相同答案的代码——来自数据处理页的标准,也是让 工作可审计、可信赖的东西。伦理意味着认真对待你所构建之物的偏见、隐私、 公平与后果——一个在有偏数据上训练的模型会把那种偏见固化下来,而在政府与健康工作中, 赌上的是活生生的人。这些不是一份最后才过的清单;它们是你从第一个问题一直背到最后一次 部署的约束。

08

问题优先

把这一切串起来,你得到的是一种哲学,而不只是一道流程。问题优先,而非模型 优先:从决策出发,找出做好它所需的最少数据与最简单的方法,并看重影响胜于 精巧。正是它让同一个人能在科研实验室、政府情报团队和工程项目里都派上用场——因为即便 工具在变,框架始终不变。

09

它在我工作中的体现

10

60 秒回顾