Jason Wei Blog: 强化学习中的人生启示

作者：Jason Wei

发布日期：2025年7月15日

原文链接：Life Lessons from Reinforcement Learning

在过去的一年里，我变成了一个彻头彻尾的强化学习（RL）爱好者，几乎醒着的时候都在思考RL。无意间，这也教会了我一个重要的人生课题：如何更好地生活。

强化学习中的一个核心概念是你要始终"遵循当前策略（on-policy）"：也就是说，不是去模仿别人的成功轨迹，而是自己采取行动，并从环境中获得的奖励中学习。

显然，模仿学习在最初阶段是很有帮助的，它可以让你迈出第一步、达到一个非零的成功率。但一旦你能够走出合理的路径，我们通常就会避免继续模仿学习。因为最好的方式是让模型从自己的轨迹中学习，这样才能最大化利用它自身的优势——而这些优势往往与人类不同。这一点也被广泛接受，例如，在训练语言模型解决数学应用题时，用强化学习要比简单地用人类写好的思维链条做监督微调效果更好。

在人生中，我们最初也同样是通过模仿学习来起步的，比如在学校里，这是非常合理的。但即使我已经从学校毕业，我还是习惯去研究别人是如何成功的，并试图去模仿他们。有时候这种做法确实奏效，但最终我意识到：我永远无法超越那些人的全部能力，因为他们是在发挥自己的优势，而我并不具备这些优势。

比如，一个研究人员能更好地做yolo实验，是因为他们自己搭建了代码框架，而我没有；再举一个非AI领域的例子，就是一个足球运动员能凭借强壮的身体控球，而我不具备那种身体素质。

强化学习的"on-policy"教训是：如果你想要超越老师，你就必须走自己的路，从环境中获取属于自己的风险和奖励。

比如，有两件事是我比大多数研究人员更喜欢做的：（1）阅读大量数据，（2）做消融实验以理解系统中每个组件的作用。有一次我在收集数据集时，花了几天时间去阅读数据，并给每个标注人员个性化的反馈，结果数据质量非常好，我也对要解决的任务有了更深的理解。

今年早些时候，我又花了一个月时间，回头去做那些我曾经凭直觉做出的决策的消融实验。这花费了我不少时间，但我从这些实验中学到了关于强化学习的独特经验。不仅顺应我的兴趣让我更有满足感，我现在也觉得自己正在逐步建立起一个更坚实的研究定位和专属领域。

简而言之，模仿是有价值的，而且在初期是必须的。但一旦你"引导成功"到一定程度，如果你想超越老师，就必须像强化学习一样"遵循当前策略"，发挥你自己的优势和劣势来走自己的路。🙂