强化学习 — rin.contact

机器学习有三大范式。监督学习从带标签的样本中学习（这是猫，这是狗）。无监督学习则在完全没有标签的情况下发现结构。强化学习（RL）是第三种，也是最不一样的一种：它从奖励中学习，靠去做。没人告诉智能体正确答案；它尝试各种动作、看会发生什么，并逐渐摸索出一套随时间赚取最多奖励的策略。

正是它让程序学会在围棋和雅达利游戏上击败人类、让机器人学会走路，也是现代语言模型被调校的一部分方式。它完成了本板块机器学习页面的三部曲——而它的核心难点，即设计奖励，结果是人工智能中最深的问题之一。这一页从那个循环开始，把它一层层搭起来。

第三种范式：从奖励中学习

RL 的决定性特征是：没有带标签的数据集。取而代之的是一个目标，以及一个告诉智能体自己做得好不好的奖励信号。智能体的任务是学出一个策略——一种选择动作的方式——使它随时间收集到的总奖励最大化。它靠试错学习，就像你学一个没人讲解过的游戏：玩、留意什么能得分、然后多做那个。

有两个特征让 RL 真正比监督学习更难。第一，反馈是评价性的，而非指导性的——奖励告诉你你的动作有多好，而不是正确的动作本该是什么。第二，奖励可能是延迟的：赢下一盘棋的那一步，也许是二十步之前下的。把一个迟到的奖励，连回到那个赢得它的早期动作上——信用分配问题——正是 RL 很大一部分内容所在。

智能体-环境循环

RL 里的一切都建立在一个循环之上。一个智能体观察一个环境的当前状态，采取一个动作，环境则以一个奖励和一个新状态回应。重复。智能体的全部存在就是这个循环，而它的目标是选择那些在长期内最大化奖励的动作——而不只是下一步。

强化学习循环。智能体看到一个状态、挑一个动作；环境返回一个奖励和下一个状态。一圈又一圈——智能体学出那个最大化长期奖励、而非眼前奖励的策略。

马尔可夫决策过程

那个循环的形式化框架是马尔可夫决策过程（MDP）：一组状态 $S$ 、动作 $A$ 、转移概率，以及奖励。它的决定性假设是马尔可夫性质——未来只取决于当前状态，而非你如何走到这里的全部历史。当前状态捕获了所有相关的东西。

智能体的目标是最大化期望回报——累积的未来奖励——通常是折扣过的，好让较早的奖励比遥远的更重要：

G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}

折扣因子 $\gamma \in [0,1)$ 设定智能体有多远视：接近 0 时它很短视（现在就抓奖励），接近 1 时它为长远谋划。那一个旋钮，就捕获了短期与长期回报之间的全部张力。

探索与利用：核心困境

RL 有一种在监督学习里找不到对应的张力。每一步，智能体可以利用——采取它当前相信最好的动作——或者探索——尝试别的、可能更好也可能更糟的东西。利用得太多，你就锁死在一个平庸的习惯里，永远发现不了更好的选项。探索得太多，你就把时间浪费在已知很差的动作上。平衡两者，就是探索-利用权衡。

最简单可行的答案是 ε-贪心：大多数时候利用已知最好的动作，但以一个很小的概率 $\varepsilon$ 挑一个随机动作，以保持学习。同样的困境，就是多臂老虎机的全部故事——当你只能靠拉才能学到时，该拉哪一台老虎机——而它出现在远超 RL 的地方，在 A/B 测试与推荐里同样如此。

价值函数与贝尔曼方程

要行动得好，智能体需要一种对哪些处境是好的的感觉。一个价值函数恰恰捕获了这个：从某个状态出发（或在某状态采取某动作）所期望的长期奖励。动作价值 $Q(s,a)$ 就是「如果我在状态 $s$ 采取动作 $a$ 、此后一直行动得当，我能期望多少总奖励？」

基石是贝尔曼方程，它赋予价值一种递归结构：此刻的价值，是即时奖励，加上你接下来落脚之处的（折扣过的）价值。

Q(s,a) = r + \gamma \max_{a'} Q(s', a')

那个递归是几乎每一种 RL 方法的引擎。它把一个令人生畏的长视野问题——「在数千步内最好的策略是什么？」——分解成每个状态与下一个状态之间一个局部的、可解的关系。解出贝尔曼方程，你就知道一切的价值；对这些价值贪心地行动，你就有了一个最优策略。

Q 学习：学出价值

你很少事先知道环境的规则，所以你没法直接解贝尔曼——你必须从经验中学出那些价值。Q 学习用一个漂亮而简单的更新来做这件事。每次动作之后，它把自己的估计 $Q(s,a)$ 朝它刚刚观察到的东西轻推一下：

Q(s,a) \leftarrow Q(s,a) + \alpha \left[ r + \gamma \max_{a'} Q(s',a') - Q(s,a) \right]

方括号里是时序差分误差——智能体所期望的与实际发生的之间的落差（奖励，加上它落脚之处的价值）。它把估计沿那个方向移动一个分数 $\alpha$ （学习率）。在探索的同时一遍遍这样做，Q 值便收敛到真实的那些——智能体学出最优策略，却从未被告知这个世界的规则，纯粹来自它收集到的奖励。最后这一点，正是让 RL 显得了不起的地方。

深度强化学习：当状态空间爆炸

朴素的 Q 学习把每一个状态-动作对的价值存在一张表里——对一个网格世界没问题，对国际象棋或原始像素则无望，那里的状态多到天文数字。深度强化学习用一个神经网络替换那张表，去逼近 $Q(s,a)$ ，在它从未见过的相似状态之间泛化。

正是这个组合撑起了那些登上头条的成果：一个深度 Q 网络（DQN）直接从屏幕学会雅达利游戏，以及那些精通围棋乃至更多的系统。深度学习提供感知与泛化；RL 提供目标导向的决策 ——一对强大的搭档，也是 RL 的不稳定性变得最尖锐之处。

奖励作弊与诚实的局限

RL 最大的长处——不懈地最大化奖励——也是它最大的危险。智能体优化的，恰恰是你所奖励的，而那很少恰恰是你所想要的。

现实的局限同样真实：RL 极其消耗样本（它可能需要数百万次试验，所以它大多在仿真中训练）、训练不稳定（微小的改动，迥然不同的结果），并且受困于仿真到现实的鸿沟——一个在仿真里完美的策略，可能在仿真器没捕捉到的真实硬件上失败。在你能廉价地仿真、并干净地定义奖励之处，RL 是惊人的；在你不能之处，它是危险的。

它在我工作中的体现

序贯决策的正确框架

与其说 RL 是一件日常的分析师工具，不如说它是一种思考序贯决策的方式——那些今天的选择会改变明天处境、而你追求的是长期回报而非一次性预测的问题。认出一个问题何时有那种形状（以及何时没有），才是有用的判断：很大一部分分析，由因果推断或一个监督模型来服务，比伸手去拿 RL 要好。

最能迁移过来的，是那个警示性的内核。探索-利用权衡，与 A/B 测试里的多臂老虎机是同一套逻辑。而奖励作弊，是贯穿整个板块的一个教训的最尖锐版本：优化一个代理指标，你得到的就是那个代理指标，而非目标——这是一条在任何由指标驱动行为之处都要紧的纪律，远不止 RL 本身。

60 秒回顾

RL 是第三种范式：从奖励中、靠去做来学习——没有标签。反馈是评价性的，且常常延迟（信用分配）。
循环：智能体 → 动作 → 环境 → 奖励 + 下一状态 → 重复，形式化为一个 MDP（马尔可夫性质；最大化折扣回报 $G_t = \sum \gamma^k R$ ）。
核心困境：探索与利用（ε-贪心；多臂老虎机）。
价值函数 + 贝尔曼方程 $Q(s,a)=r+\gamma\max_{a'}Q(s',a')$ 给长视野规划一种递归结构。
Q 学习通过 TD 误差从经验中学出那些价值——不知道规则也能得到最优策略。深度强化学习把那张表换成一个神经网络（DQN、围棋、雅达利）。
危险：奖励作弊——它优化你所奖励的，而非你所想要的。再加上消耗样本、不稳定、仿真到现实的鸿沟。

贝尔曼/Q 学习的表述、探索-利用的取景，以及奖励作弊的告诫，反映了当前的强化学习参考文献以及机器学习课程。