在过去的一年里,我变成了一个彻头彻尾的强化学习(RL)爱好者,几乎醒着的时候都在思考RL。无意间,这也教会了我一个重要的人生课题:如何更好地生活。
显然,模仿学习在最初阶段是很有帮助的,它可以让你迈出第一步、达到一个非零的成功率。但一旦你能够走出合理的路径,我们通常就会避免继续模仿学习。因为最好的方式是让模型从自己的轨迹中学习,这样才能最大化利用它自身的优势——而这些优势往往与人类不同。这一点也被广泛接受,例如,在训练语言模型解决数学应用题时,用强化学习要比简单地用人类写好的思维链条做监督微调效果更好。
在人生中,我们最初也同样是通过模仿学习来起步的,比如在学校里,这是非常合理的。但即使我已经从学校毕业,我还是习惯去研究别人是如何成功的,并试图去模仿他们。有时候这种做法确实奏效,但最终我意识到:我永远无法超越那些人的全部能力,因为他们是在发挥自己的优势,而我并不具备这些优势。
比如,一个研究人员能更好地做yolo实验,是因为他们自己搭建了代码框架,而我没有;再举一个非AI领域的例子,就是一个足球运动员能凭借强壮的身体控球,而我不具备那种身体素质。
比如,有两件事是我比大多数研究人员更喜欢做的:(1)阅读大量数据,(2)做消融实验以理解系统中每个组件的作用。有一次我在收集数据集时,花了几天时间去阅读数据,并给每个标注人员个性化的反馈,结果数据质量非常好,我也对要解决的任务有了更深的理解。
今年早些时候,我又花了一个月时间,回头去做那些我曾经凭直觉做出的决策的消融实验。这花费了我不少时间,但我从这些实验中学到了关于强化学习的独特经验。不仅顺应我的兴趣让我更有满足感,我现在也觉得自己正在逐步建立起一个更坚实的研究定位和专属领域。