Skip to content
知识

/knowledge/reinforcement-learning

强化学习

机器学习的第三种方式:不靠带标签的样本,不靠发现结构,而是靠尝试与追逐奖励。它是一个程序学会玩、学会控制、学会决策的方式——而最难的部分,是说清「好」究竟意味着什么。

学于
强化学习进阶 · 从奖励中学习
时间
机器学习与人工智能课程
应用于
序贯决策
阅读 / 复习
约 16 分钟阅读2026-06-26

机器学习有三大范式。监督学习从 带标签的样本中学习(这是猫,这是狗)。无监督学习则 在完全没有标签的情况下发现结构。强化学习(RL)是第三种,也是最不一样的一种:它从奖励中学习,靠去做。没人告诉智能体正确答案;它尝试各种动作、 看会发生什么,并逐渐摸索出一套随时间赚取最多奖励的策略。

正是它让程序学会在围棋和雅达利游戏上击败人类、让机器人学会走路,也是现代语言模型被调校的一部分 方式。它完成了本板块机器学习页面的三部曲——而它的核心难点,即设计奖励,结果是人工智能中最深的 问题之一。这一页从那个循环开始,把它一层层搭起来。

01

第三种范式:从奖励中学习

RL 的决定性特征是:没有带标签的数据集。取而代之的是一个目标,以及一个告诉智能体自己做得好不好 的奖励信号。智能体的任务是学出一个策略——一种选择动作的方式——使它 随时间收集到的总奖励最大化。它靠试错学习,就像你学一个没人讲解过的游戏:玩、留意什么能得分、 然后多做那个。

有两个特征让 RL 真正比监督学习更难。第一,反馈是评价性的,而非指导性的——奖励 告诉你你的动作有多好,而不是正确的动作本该是什么。第二,奖励可能是延迟的:赢下一盘棋的那一步,也许是二十步之前下的。把一个迟到的奖励,连回到那个 赢得它的早期动作上——信用分配问题——正是 RL 很大一部分内容所在。

02

智能体-环境循环

RL 里的一切都建立在一个循环之上。一个智能体观察一个环境的当前状态,采取一个动作,环境则以一个奖励和一个新状态回应。 重复。智能体的全部存在就是这个循环,而它的目标是选择那些在长期内最大化奖励的动作——而不只是 下一步。

智能体环境动作奖励 + 下一状态
强化学习循环。智能体看到一个状态、挑一个动作;环境返回一个奖励和下一个状态。一圈又一圈——智能体学出那个最大化长期奖励、而非眼前奖励的策略。

03

马尔可夫决策过程

那个循环的形式化框架是马尔可夫决策过程(MDP):一组状态 SS、 动作 AA、转移概率,以及奖励。它的决定性假设是马尔可夫性质——未来只取决于当前状态,而非你如何走到这里的全部历史。当前状态捕获了所有相关的东西。

智能体的目标是最大化期望回报——累积的未来奖励——通常是折扣过的,好让 较早的奖励比遥远的更重要:

Gt=k=0γkRt+k+1G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}

折扣因子 γ[0,1)\gamma \in [0,1) 设定智能体有多远视:接近 0 时 它很短视(现在就抓奖励),接近 1 时它为长远谋划。那一个旋钮,就捕获了短期与长期回报之间的 全部张力。

04

探索与利用:核心困境

RL 有一种在监督学习里找不到对应的张力。每一步,智能体可以利用——采取它当前相信 最好的动作——或者探索——尝试别的、可能更好也可能更糟的东西。利用得太多,你就 锁死在一个平庸的习惯里,永远发现不了更好的选项。探索得太多,你就把时间浪费在已知很差的动作 上。平衡两者,就是探索-利用权衡

最简单可行的答案是 ε-贪心:大多数时候利用已知最好的动作,但以一个很小的概率 ε\varepsilon 挑一个随机动作,以保持学习。同样的困境,就是多臂老虎机的全部故事——当你只能靠拉才能学到时,该拉哪一台老虎机——而它出现在 远超 RL 的地方,在 A/B 测试与推荐里同样如此。

05

价值函数与贝尔曼方程

要行动得好,智能体需要一种对哪些处境是好的的感觉。一个价值函数恰恰捕获 了这个:从某个状态出发(或在某状态采取某动作)所期望的长期奖励。动作价值 Q(s,a)Q(s,a) 就是「如果我在状态 ss 采取动作 aa、此后一直行动得当,我能期望多少总奖励?」

基石是贝尔曼方程,它赋予价值一种递归结构:此刻的价值,是即时奖励,加上你接下来 落脚之处的(折扣过的)价值。

Q(s,a)=r+γmaxaQ(s,a)Q(s,a) = r + \gamma \max_{a'} Q(s', a')

那个递归是几乎每一种 RL 方法的引擎。它把一个令人生畏的长视野问题——「在数千步内最好的策略 是什么?」——分解成每个状态与下一个状态之间一个局部的、可解的关系。解出贝尔曼方程,你就 知道一切的价值;对这些价值贪心地行动,你就有了一个最优策略。

06

Q 学习:学出价值

你很少事先知道环境的规则,所以你没法直接解贝尔曼——你必须从经验中出那些价值。Q 学习用一个漂亮而简单的更新来做这件事。每次动作之后,它把自己的估计 Q(s,a)Q(s,a) 朝它刚刚观察到的东西轻推一下:

Q(s,a)Q(s,a)+α[r+γmaxaQ(s,a)Q(s,a)]Q(s,a) \leftarrow Q(s,a) + \alpha \left[ r + \gamma \max_{a'} Q(s',a') - Q(s,a) \right]

方括号里是时序差分误差——智能体所期望的与实际发生的之间的落差(奖励,加上它 落脚之处的价值)。它把估计沿那个方向移动一个分数 α\alpha(学习率)。 在探索的同时一遍遍这样做,Q 值便收敛到真实的那些——智能体学出最优策略,却从未被告知这个世界的规则,纯粹来自它收集到的奖励。最后这一点,正是让 RL 显得 了不起的地方。

07

深度强化学习:当状态空间爆炸

朴素的 Q 学习把每一个状态-动作对的价值存在一张表里——对一个网格世界没问题,对国际象棋或 原始像素则无望,那里的状态多到天文数字。深度强化学习用一个神经网络替换那张表,去逼近 Q(s,a)Q(s,a),在它从未见过的相似状态之间泛化。

正是这个组合撑起了那些登上头条的成果:一个深度 Q 网络(DQN)直接从屏幕学会 雅达利游戏,以及那些精通围棋乃至更多的系统。深度学习提供感知与泛化;RL 提供目标导向的决策 ——一对强大的搭档,也是 RL 的不稳定性变得最尖锐之处。

08

奖励作弊与诚实的局限

RL 最大的长处——不懈地最大化奖励——也是它最大的危险。智能体优化的,恰恰是你所奖励的,而那 很少恰恰是你所想要的。

现实的局限同样真实:RL 极其消耗样本(它可能需要数百万次试验,所以它大多在 仿真中训练)、训练不稳定(微小的改动,迥然不同的结果),并且受困于仿真到现实的鸿沟——一个在仿真里完美的策略,可能在仿真器没捕捉到的真实硬件上 失败。在你能廉价地仿真、并干净地定义奖励之处,RL 是惊人的;在你不能之处,它是危险的。

09

它在我工作中的体现

10

60 秒回顾

贝尔曼/Q 学习的表述、探索-利用的取景,以及奖励作弊的告诫,反映了当前的强化学习参考文献以及 机器学习课程。