目录

《Deepseek同行评议》

[同行评议文件]

[DeepSeek-R1 通过强化学习激励大语言模型推理]

[通讯作者:吴博士]

本文件中的任何删减都是为了维护患者保密性、未发表数据的保密性,或移除第三方材料。

本文件按版本顺序包含所有评审员报告,随后按版本顺序包含所有作者回复。

版本 0:

评审员意见:

评审员 #1

(对作者的意见)

关键结果

先前的研究表明,如果让大语言模型(LLMs)在生成答案之前生成其推理过程,它们在涉及数学或逻辑推导的任务上能够实现更好的性能。让大语言模型生成推理的先前方法包括提示方法(如在LLM输入后附加字符串”让我们逐步思考”)和在包含推理示例的训练数据上进行监督微调。本论文的主要贡献是证明了仅使用强化学习就能教会大语言模型推理的可能性,无需依赖提示工程,并且对人类数据(如人类演示和奖励标签)的依赖极少。

这是一篇对语言模型后训练做出基础性贡献的论文,通过强化学习和无人工干预展示了专家级推理的可能性。所产生的模型DeepSeek R1在评估基准上达到了最先进的性能,并且已经在我学科内的研究人员中引起了极大的兴奋。尽管如此,所使用的确切训练数据混合缺乏透明度可能限制这项工作的可重现性,模型开发中做出的许多决策缺乏支撑其有效性的实证结果。

原创性和重要性

据我所知,这是第一篇展示大语言模型可以仅使用强化学习而无需首先进行监督微调就能有效训练推理能力的论文。

实际采用的强化学习方法——群体相对策略优化(GRPO, Group Relative Policy Optimization),作者并未声称是一项新颖贡献。然而,GRPO是由同一组作者在2024年4月的未发表arxiv预印本中引入的。

我认为如果Nature论文也为GRPO邀功并向读者介绍这种方法,会使论文更加有力。

从论文阅读来看,第4节中描述的蒸馏技术是否为新颖贡献尚不清楚。是否有其他先前工作使用已训练具备这些技能的更强大LLM生成的数据集来微调预训练LLM以获得指令遵循/推理能力?如果有,本节应该描述这些先前工作并解释DeepSeek-R1蒸馏采用的方法有何不同。如果没有,本节应该更清楚地表明这种类型的蒸馏是一项新颖贡献。

数据与方法:方法有效性

作者报告推理能力(通过AIME准确性衡量)和思维过程长度在RL训练过程中稳步提高(图1)。如果模型只是学会更加冗长和”全面”,那么它能更好地推理本身并不令人惊讶。我希望看到作者设计实验来区分模型简单学会更加冗长与实际学会更好推理技能的收益。

AIME上的一致性性能在约8000步后趋于平稳(图1)。希望对这种现象发生的原因进行讨论。

GRPO与PPO非常相似,显著例外是使用样本而不是评判器进行优势估计。我想知道R1-Zero的显著结果是否依赖于GRPO的具体选择,或者其他算法如PPO是否也能同样有效。

我想知道作者如何设计DeepSeek R1的后训练流水线(图2)。为什么有必要将训练分为SFT+RL两个阶段?虽然我意识到这个决策在行业LLM中并不独特(例如,Llama做了类似的事情),但读者仍然需要了解决定多轮后训练背后的动机。

数据与方法:表述质量

第1段提供了两种增强LLM生成问题答案背后推理的方法:少样本提示和使用简单提示如”让我们逐步思考”。这一段没有讨论在推理数据上进行监督微调的方法。然而,第2段假设读者了解监督微调作为引入推理的”传统”技术。

第2段描述了提出的系统如何基于DeepSeek-V2-Base构建,但没有解释这个模型是什么。这里需要额外的句子解释DeepSeek-V2-Base是如何在各种非结构化英文和中文文本数据上进行预训练的语言模型。

AIME基准在被第6页描述之前多次提及(图1,第4页第一段)。类似于论文”更大和更可指导的语言模型变得不太可靠”中表2的表格将有助于向读者展示推理任务的实际含义。

如果GRPO对新模型的成功至关重要,那么应该更详细地描述它(即,应该将A1.1的高级版本添加到正文中)。更一般地说,作者不应该假设读者理解强化学习和监督学习之间的区别,“传统监督微调”是什么样的,以及为什么相比SFT,强化学习”对人工标注工作的依赖最小”。引言部分可以通过扩展以包含更多预备知识而受益。

统计方法的适当使用和不确定性处理

考虑到训练大语言模型的高成本,期待多次重复实验是不合理的。

然而,图3和表3将受益于对哪些性能差异具有统计显著性的解释。例如,在图3中,AIME 2024中前两个柱状图之间的性能差异是否具有统计显著性?

结论:稳健性、有效性、可靠性

论文的一个主要声明是,仅使用强化学习就可以使语言模型有效地执行推理。这一声明应该得到实验的支持,该实验将使用强化学习训练的语言模型系统(R1和R1-Zero)与不使用强化学习的系统(例如使用提示方法的系统,或仅经过监督微调的模型)进行比较。图3中的柱状图应该扩展以包含一些这些额外的基线。

第6节声称”奖励信号与多样化数据分布的整合使我们能够开发出一个不仅在推理方面表现出色,而且优先考虑有用性和无害性的模型。“然而,没有显示实验结果来支持关于”有用性和无害性”的声明。所有实验结果都是关于推理任务的。

建议的改进:

图2令人困惑,可以通过详细说明正在发生什么的长标题而受益。“DeepSeek V3 Base”和”DeepSeek V3”(左上和中上的紫色方框)之间有什么区别?除了这个图之外,我在论文的任何地方都找不到”DeepSeek R1 Dev”的提及。如上所述,很希望在结果部分看到”DeepSeek R1 Dev”和”DeepSeekR1”性能之间的比较,以便理解SFT/RL的第二阶段如何改善性能?

在第4页,作者应该解释当他们提议从监督微调阶段消除混淆因素时,他们指的是什么样的混淆因素。

在第3节,第二段应该解释”人类友好的冷启动数据”的含义。

在讨论DeepSeek-R1-Zero有时产生中英文交替生成的问题时,论文假设读者知道DeepSeek V3基础模型是在中英文混合数据上训练的。这应该明确说明。

拼写错误

第4页第6行,“technical”应该是”technique”。

第3节第3行,“use”应该是”uses”。

第6页最后一行应该读作”questions and brainstorming. The detailed evaluations are in appendix B.”

清晰度和背景:

摘要写得很好,清楚地描述了论文的关键贡献。

我对上面记录的一些未得到实验结果支持的声明数量表示担忧。

审稿人#2

(对作者的意见)

亲爱的作者,请在下面找到我们对您的DeepSeek-R1手稿的评论。我们建议在解决关于训练数据报告的一些限制(见数据和方法)以及关于图表和正文部分的一些澄清(见建议的改进)后发表该手稿。

关键结果总结

作者介绍了一种新颖的后训练方法来改善大语言模型的推理能力,并显示它在两个6710亿参数模型上产生了最先进的结果:DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero表明,使用可验证奖励的强化学习可以在预训练语言模型中诱导长链式思维推理,而无需大规模人工标注或像MCTS这样的辅助搜索方法。作者用DeepSeek-R1扩展了这种方法,它使用多阶段训练来匹配人类专家和专有模型(如OpenAI o1)在广泛基准测试中的性能。这项工作的一个重要贡献是开源发布DeepSeek-R1-Zero和DeepSeek-R1,以及从DeepSeek-R1中蒸馏出的六个额外模型,参数范围从15亿到700亿。作者提供了对其大规模训练管道、基础设施、数据集混合和超参数配置的详细描述。

原创性和重要性

这项工作是第一个训练大规模推理模型方法的详细描述。先前的研究如[1]和[2]已经探索了改善语言模型(包括预训练模型)推理能力的方法,但对强化学习相比监督微调等更简单离线方法的效果得出了不同的结论。此外,R1和蒸馏模型的发布标志着AI研究领域的一个重要里程碑,因为这是第一次开源权重模型匹配或超越最新专有模型的性能。通过公开这些模型并提供其训练方法的详细信息,我们期望研究社区将使用这个基础来快速推进推理模型的发展。

数据和方法

在附录A.4中,作者提供了用于训练其模型的数据描述。总体而言,我们发现这些描述不够详细,无法重现论文的主要结果,我们希望看到更多关于这些数据集统计信息以及用于从DeepSeek-V3等模型生成它们的提示词的信息。请参考[3-4]中的数据集描述作为良好示例。

特别是,我们希望得到以下方面的更多信息/澄清:

方法论:

统计的适当使用和不确定性处理

N/A

结论

自从DeepSeek-R1和蒸馏模型的开放权重发布以来,本研究工作的许多声明已被研究社区后续验证。例如,在R1-Zero训练中观察到的”顿悟时刻”已在[5]中以较小规模得到复现(尽管[6]显示”顿悟时刻”可能主要是基础模型质量的症状)。类似地,六个蒸馏模型的评估指标已通过[7]等努力得到独立复现,而[8]等工作显示蒸馏R1轨迹能产生强大的模型。基于这些发现和作者呈现的研究质量,我们相信结论是稳健的。

建议改进

图表:

参考文献

请在修订版本中考虑以下参考文献(相关背景请参见上述内容)。

[1] A Study on Improving Reasoning in Language Models. https://openreview.net/forum?id=tCZFmDyPFm

[2] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models. https://arxiv.org/abs/2312.06585

[3] Training language models to follow instructions with human feedback. https://arxiv.org/abs/2203.02155

[4] Llama 2: Open Foundation and Fine-Tuned Chat Models. https://arxiv.org/abs/2307.09288

[5] TinyZero. https://github.com/Jiayi-Pan/TinyZero

[6] There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study. https://oatllm.notion.site/oat-zero

[7] Open R1. https://github.com/huggingface/open-r1

[8] OpenThinker. https://www.open-thoughts.ai/blog/scale

[9] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. https://arxiv.org/pdf/2402.03300

清晰度和背景

总体而言,摘要清晰易懂。然而,作者提出的一些主张需要澄清。例如,作者声称他们”提出了一个仅使用大规模强化学习训练的新颖框架,无需依赖监督微调”,但最终在RL步骤之前使用了冷启动思维链数据进行SFT。如果能够明确区分R1-Zero和R1的训练过程,将有助于提高可读性。

引言和结论的文本清晰明了。我们唯一的建议是在未来研究方向上提供一些结语。

此致敬礼, Lewis Tunstall博士和Edward Beeching博士

审稿人#3

(对作者的意见)

大语言模型作为通用系统1提示完成器的成功,引发了一场竞赛,看看是否某种版本的大语言模型也能够以足够的准确性解决推理和规划问题。

Deepseek-R1模型及其配套论文对AI社区产生了相当大的影响,作为第一个公开描述的大型推理模型。[虽然o1确实早于它们,但OpenAI选择对其方法以及中间标记保密——因此对o1实际做了什么没有明确的概念。]

虽然我赞赏DeepSeek将LRM(大型推理模型)发展带入开放科学,并认为这篇论文的某个版本确实值得在《自然》杂志上发表,但我确实认为目前的论文需要一些重要的修改/澄清才能配得上在《自然》杂志上发表。

我在下面列出我的关切:

1.[将中间标记拟人化为”推理轨迹”]

在我看来,这篇论文存在过度拟人化的问题——专注于R1中间标记的”类人”特性。鉴于所有评估都仅针对最终答案而非中间标记(即”推理轨迹”),对中间标记的关注似乎是错误的和误导性的。实际上,R1-zero和R1之间的变化似乎主要是为了让中间标记模仿类人咕哝的风格。从来不清楚R1的咕哝——虽然可能更”可读”——在语义上是否比R1-zero的更连贯,除了R1的坚持使用”英语”这一事实。(毕竟,许多类型的虚假推理过程——包括蒙提·派森逻辑——都是完全”可读的”,但没有语义。)

鉴于R1-zero或R1中都没有先验保证(就像o1/o3模型中没有一样)解决方案是正确的,对”推理轨迹的类人特性”的关注实际上可能导致对最终解决方案的不当信任。

我强烈建议作者修改写作,减少这种拟人化。

2.[RL vs. 基础模型]

虽然我理解作者将RL视为R1强度的重要来源,但不清楚R1是否真的被用来开发”推理轨迹”/中间标记。我仔细阅读后发现:(1)基础模型已经具备在最终解决方案之前生成中间标记的能力。(2)RL阶段基本上是在备选的中间标记-最终解决方案对之间进行选择(使用外部验证器),并使用策略梯度将基础LLM偏向这些对(有效地提升似乎导致正确解决方案的中间标记)。如果是这种情况,那么RL和SFT方法之间的区别可能不像论文所描述的那样明显。特别是,迭代SFT方法很可能与RL竞争。蒸馏结果已经表明了这一点。论文更明确地阐述这一点会很有用。[考虑到之前有高估RL作用的先例——就像RLHF/DPO的情况一样,这一切就更加重要了。]

  1. [预训练基础模型中”推理轨迹”数据的数量:] 该论文通过表示R1使用外部推理轨迹数据进行RL之前的SFT阶段,而R1-Zero不使用,来区分R1-Zero和R1。但这有些误导性,因为它让人看起来R1的基础模型从未接触过推理轨迹数据。如果真是如此,基础模型根本无法生成以解决方案猜测结尾的替代轨迹。RL或SFT阶段能够工作的事实,至少部分归因于基础模型已经在足够的推理轨迹数据上进行了训练,能够生成合理的替代方案供RL选择。如果论文能尽可能清楚地解决这个问题就太好了。显然,解决这个问题的最佳方式是对基础模型训练所使用的训练数据更加坦诚。我意识到除了AI2和他们的OLMO系列模型外,大公司都不这样做。当然,DeepSeek可以比目前更透明地公开预训练数据——特别是这将有助于更好地理解R1优势的来源。

  2. [验证器的重要性] 我越想越觉得,R1真正的力量来源似乎不是RL vs. SFT,而是验证器提供的关于哪些替代解决方案实际正确的强信号。这在训练阶段和后续蒸馏阶段都有帮助。R1合成数据几乎完全依赖于具有外部可靠验证器的数学和编程问题这一事实,似乎为此提供了支持。在论文中更突出地解决这个问题会很有帮助。

  3. [测试时计算] 我不太相信R1进行测试时计算的说法——它似乎没有进行任何对问题复杂度自适应的测试时计算。据我从论文中了解,R1在推理时的行为就像普通LLM——基本上输出中间令牌,直到输出中间令牌结束,然后切换到输出解决方案令牌。作者自己也声明R1与从中蒸馏出的标准LLM无法区分。中间令牌长度的变化与标准LLM中输出长度基于提示变化的事实没有不同。在我看来,对R1使用测试时计算术语不必要地混淆了概念(特别是考虑到作者确实实验了真正的自适应测试时计算策略,如附录中描述的MCT)。我鼓励作者考虑修改写作,使R1在推理阶段只是一个LLM这一事实变得清楚。

  4. [大模型蒸馏:] 论文的蒸馏结果留下一个未回答的问题:如果不是将R1蒸馏到更小的LLM上,而是通过蒸馏R1的解决方案(带有中间令牌)来训练R1的原始基础模型本身,会发生什么。这将提供有价值的信息,说明RL部分是否真的在做比基本上从R1基础LLM已经有能力产生的替代轨迹中进行选择更重要的事情。

审稿人 #4

(对作者的评论)

我与提供所列报告的一位审稿人共同审阅了这份手稿。

审稿人 #5

(对作者的评论)

我与提供所列报告的一位审稿人共同审阅了这份手稿。

审稿人 #6

(对作者的评论)

A. 关键结果总结

R1-zero是RL(使用去年引入的最新高效GRPO算法)应用于足够好能从思维链(CoT)中受益的预训练LLM的第一个明确成功案例(至少公开的)。特别是,本论文基于作者的Deepseek V3(基础版本),使用包含数学(26k)、编程(17k)、漏洞修复(8k)、STEM(22k)、逻辑(15)、有用性(66k)和无害性(12k)混合的”RL数据”数据集。总共,166k个问题和一个使用基于规则的奖励(正确性和格式)的直接RL算法就足以将传统模型V3转变为更好的”推理”模型,名为”R1-zero”。然而,一旦R1-zero通过在输出总结响应之前进行更长但更强大的思维链推理来改善推理问题,R1-zero在思维链中表现出奇怪的行为和低可理解性,如混合语言,并且在其他(非推理)领域可能表现出较低的可指导性和性能。

论文中只有一个案例证据表明这种”简单”RL方法可以在除Deepseek V3(基础版本)之外的其他LLM上工作,后者有671B总参数(每个令牌激活37B)。附录中的表B3显示”Zero”方法应用于Qwen 32B。结果很好,所以看起来RL”Zero”方法至少在两种情况下是有效的。

由于Zero方法的局限性,作者构建了R1,基于冷启动数据和一些其他优化来产生更好、更可理解的思维链,并恢复甚至增加其可指导性和性能。这分两个阶段进行:首先,使用精心制作的用户可读思维链进行冷启动,使用SFT(此数据集大小未披露)加上RL阶段。其次,使用800K训练样本(600K推理和200K非推理)进行更多SFT,然后是另一个RL阶段(图2)。

从科学角度来看,R1-zero更有趣,因为它展示了强化学习如何直接发挥作用(当然,这是在CoT提示在非常优秀的模型如Deepseek V3或Qwen 32B上至少能够工作的条件下),而R1更像是一个为了可用性而打磨的”产品”。冷启动确保了思维链在过程开始时的质量。这可能解释了为什么之前的纯强化学习方法没有成功:模型还不够强大,但没有冷启动的Qwen 32B似乎也能工作。所以为什么现在能工作还没有完全明确。

对于研究和政策影响来说,蒸馏模型也非常有趣。作者们展示了即使将推理能力转移到其他模型并减少参数数量,很大一部分推理能力仍然可以保留。

原创性和重要性

如前所述,这是第一个使用思维链在大语言模型上直接应用强化学习的公开例子。他们所说的”纯”是指使用最近优化的标准强化学习算法GRPO进行自我进化,使用166k个监督样本(对于zero版本,除了在预训练中看到的思维链之外,不需要看到任何思维链),并关注最终的奖励(加上一些格式奖励)。这与迄今为止依赖监督微调的标准强化学习方法(如RLHF)不同。R1-Zero结合了AI中的几项主要技术和范式:基于transformer的大语言模型、强化学习和自我对弈/进化(Alpha(Go)-Zero)。DeepSeek-R1-Zero是这种方法的结果(因此得名),但它也有一些局限性。

他们的”基于规则”的模型不依赖于为每个单独的动作(在这种情况下是token)给予奖励,而只关注最终结果(解决方案是否与真实情况对应,以及deliberation的格式是否具有一些理想的属性),这与传统的奖励建模不同。至少根据公开记录,之前没有人展示过这种方法对大语言模型的后训练如此有效。OpenAI的O1可能做了类似的事情,但我们无法知道,或者各种未报告的努力也尝试了这种带有基于规则奖励的”纯”强化学习,但最终失败了,也许是因为他们混合了”推理”和”非推理”任务。

DeepSeek-R1结合了精心设计的思维链轨迹的冷启动(类似于AlphaGo在切换到AlphaGo-Zero之前使用的方法,但基于拒绝采样,涉及使用其他语言模型来修改和选择链),并且还在过程中添加了监督微调(SFT)。这部分的原创性较低,尽管拒绝采样的细节(如何创建冷启动数据集)需要许多技巧(在A.4.2中的四个段落中总结)。

Zero方法的原始假设是”人类定义的推理模式可能限制模型探索”、“大语言模型中的新推理能力”和”多样化和复杂的推理行为”。然而,从DeepSeek-R1-Zero到DeepSeek-R1的进展似乎是一种倒退或妥协,承认了精心策划的推理模式在启动过程中的价值,同时也使推理对人类来说更易理解。但如果发现了这些新的推理模式,R1-Zero和R1在科学上都更有趣,就像AlphaGo对阵李世石第二局中的第37步棋一样,那是人类永远不会下的一步棋。因此,我们希望看到R1-zero(或R1)中超越或偏离标准人类推理的推理过程(混合语言的推理链在人类中并不罕见)。展示出现的”新思维方式”将是对科学的重大贡献。

最终,展示DeepSeek-R1-Zero的第2节是论文中最令人惊讶的部分(强化学习直接工作),而DeepSeek-R1是一种更标准的方法,在几个阶段中采用不同方法的最佳组合,结合人类和大语言模型生成的数据。但第2节几乎没有细节,没有消融实验,也没有关于为什么它在这里工作而之前效果不佳的假设。有多少是由于新的强化学习算法(GRPO,不是在本文中介绍的)、使用的基础模型和强化学习数据的质量?我们真的不知道。附录C讨论了失败的尝试,这应该得到强调,但我们需要更多在其他模型上使用这种强化学习的例子,以及对数据和其他条件的消融实验,以了解它的泛化能力如何。这可能已经在世界各地的其他实验室进行,并且有一些使用较小基础模型的论文(https://arxiv.org/pdf/2502.14768),但本文应该包含最少的分析,而不仅仅是表B3。

他们在第4节末尾,特别是关于蒸馏模型(以及预期的强化学习更好性能)说:“这一发现对AI访问的民主化具有重要意义,因为计算需求的减少能够带来更广泛的社会效益”。这鼓励了新混合思想的探索,以及大语言模型工程中更复杂的缩放定律场景(应该考虑预训练、蒸馏和推理定律来寻找最优解)。

然而,本论文增加了与大语言模型(LLMs)和其他通用人工智能系统相关的许多风险。安全性是一个主要关切,但没有模型卡片,没有关于风险的详细信息,也没有关于如何进行有用性和无害性程序的信息,或正在进行的安全测试。由于本论文的潜在影响,作者有道德责任在这个方向上添加显著更多关于安全测试的信息。此外,应该有一个描述影响的部分,例如,使用强化学习(RL)创建危险的大语言模型有多容易,用成功的网络攻击数据优化它们?在这里,不仅需要安全测试,还需要模型的估计计算量。对于本论文,作者不仅有必要能够发布带有安全保障的模型(DeepSeek-R1),该模型可以被证明是安全的(包括越狱分析和红队测试),还要说明恶意开发者创建其他不安全模型有多容易。

在结果方面,意义较小,因为这不是一个突破性模型,至少与OpenAI的o3等模型相比,但它非常接近前沿,可以为拥有更多计算能力的其他参与者带来显著改进。然而,这必须通过对评估方法论的质疑来限定,即在基准测试上的性能饱和和强烈的污染可能性(见下文)。

在所有模型中,思考时间与质量相当(推理定律),这绝对埋葬了预训练计算作为能力代理的范式(在欧盟人工智能法案等法规中确立),并巩固了从OpenAI的o1开始的推理推理新范式,但具有简单的管道、低计算量和在不久的将来复制和适应的潜力。这些对法规的影响和关于计算量的更多细节将需要校准这些新模型的效果,特别是它们背后的技术。

C. 数据与方法论:方法的有效性、数据质量、呈现质量

有许多声明要么是泛泛而谈,要么没有证据支撑(或两者兼而有之)。

这从关于本论文所建立的最先进状态的声明开始。例如,在引言中我们读到:“缩放的回报在超过某些参数阈值后显著递减”。我们有这方面的证据吗?详细的指针(或者如果他们从DeepSeek系列中有结果的话)将是有帮助的,因为这在人工智能研究人员中仍然是一个激烈的持续辩论:仍然不清楚通过更多计算、数据和参数数量的纯粹扩展是否会遇到瓶颈或继续扩展模型能力。

他们在摘要中声称”高级推理行为[在训练期间出现],包括自我反思、验证和策略调整”。我们是否对这些行为有一个好的定义、例子和具体测试来看它们是否正在发生?这似乎没有得到支持,甚至在论文中也没有轶事说明。

许多其他句子应该被限定:“DeepSeek-R1在推理密集型任务上达到人类专家级性能,包括数学、物理、化学、生物学和编程竞赛”。这是不正确的:结果只显示在一些特定基准测试(一些或许多选择题)上的平均准确率高于(专家)人类的平均值或某个百分位数,这甚至不是在所有数据集(GPQA)上都发生。首先,由于制作基准测试时的各种激励和约束(例如,容易收集数据、容易验证、选择题、容易评估为二进制分数等),选定的基准测试是数学/编程/物理/化学等的偏倚表示。作者应该强调这种偏倚,寻找更多样化的基准测试来源,并评估分布外案例,即在预训练或强化学习/监督微调过程中没有见过的任务表述。其次,需要评估结果的更多细节,不仅仅是平均值。所有实例级别的结果都应该可用,以便其他研究人员可以进行消融和分解分析。了解性能在问题的不同难度级别上如何表现也非常重要,因为Zero版本可能在困难问题上变得更好,但开始在与强化学习数据集无关的简单问题上失败。换句话说,这些R1模型(特别是蒸馏的模型)在某些领域的简单问题上是否变得不太可靠,同时仍然在形式推理领域的困难问题上表现出色?错误分布的方式对于理解性能变化至关重要。这不是一个看哪些模型击败排行榜的竞赛,而是理解模型在哪些领域变得更好。第三,在这些领域什么是人类专家级别?硕士水平?我们至少需要一个关于如何选择”人类专家级别”的经验法则,否则人类”基线”是无意义的。在论文的其他部分,“专家”一词被删除:“模型在多个领域达到人类级别性能,包括数学、编程竞赛和STEM领域”。

让我们更深入地挖掘评估方法论,这是论文中最薄弱的部分,涉及能力、可用性和安全性。

对于能力,报告的评估相对标准:在知名基准测试上的平均指标集合。这种方法有很多问题(例如,见https://arxiv.org/pdf/2502.06559),即使这种做法被人工智能研究场所的许多其他论文所共享。但考虑到本论文的潜在影响和《自然》的高标准,本论文应该进行更强有力的评估,即:

与评估污染相关但性质不同的是,我们想知道一些示例是否可能使用其他公司的模型生成,正如媒体所建议的那样。我们没有任何其他迹象表明情况确实如此,但直接或间接地(从基准测试或互联网获取的数据),用于训练或RL的数据集有可能包含从OpenAI模型或其他提供商生成的材料。这将使DeepSeek的模型成为OpenAI模型的部分”蒸馏”。

对可用性的分析和处理围绕产生的思维链的可理解性和”有用性”微调。在R1存储库上发布的论文(https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf)中,同样的作者说”为了缓解语言混合问题,我们在RL训练期间引入了语言一致性奖励,计算为CoT中目标语言词汇的比例。尽管消融实验表明这种对齐导致模型性能略有下降,但这种奖励符合人类偏好,使其更具可读性”。这些消融实验在本文中哪里?我们在本文中哪里可以看到这种”轻微下降”?

在可用性和对齐之间,我们只在第2页看到模型”符合人类偏好,表现出最先进的性能,这在2025年1月ChatBotArena(Chiang et al, 2024)风格控制设置中的顶级排名中得到了证明”。ChatBotArena被普遍使用,但这并不意味着它是”与人类偏好对齐”的理想评估平台,因为存在用户偏见以及”偏好”对人类的真正含义。例如,没有太多讨论为什么这个模型比市场上其他竞争LLM更”对齐”。

最后,本文几乎忽略了安全性问题。包括”无害性”作为安全性重新包装的有用性和无害性的第二阶段,完全没有详细说明。作者在A.2.2部分第10页说:“对于无害性,我们评估模型的整个响应,包括推理过程和摘要,以识别和减轻生成过程中可能出现的任何潜在风险、偏见或有害内容。”如何做到?这些内容在哪里?这甚至没有达到其他模型提供商的可比详细程度,而权重共享的事实使安全性变得更加关键。

D. 统计使用的适当性和不确定性处理

在学习/强化学习过程的不同阶段以及模型的几个变体和其他基线中给出了平均值。粗体仅用于突出表格比较中的最大数字,但似乎没有对此进行统计测试。也许基准测试的规模使得根据适当的统计测试,这些差异在所有情况下都是显著的,但应该说明这一点。否则,应该进行测试。

E. 结论:鲁棒性、有效性、可靠性

有一个讨论部分,重点关注强化学习直接应用于现有模型以使其更强大的影响,但对科学贡献的讨论不多。我们特别缺少关于在某些阶段改变模型或数据集时技术鲁棒性的信息,以及考虑到污染(contamination)影响和糟糕但常见的评估方法,结果有效性的信息。其中一些决策对于宣布大语言模型或产品的报告可能是常见的,甚至在一些AI场所变得常见,但不符合一般领域科学出版物的标准,在那里可重现性和实验设计是不可或缺的。

这不仅仅是污染的问题,评估也不是为了实现有效性和可靠性而设计的。我们对某些模型在某些选定基准测试上比其他模型更好意味着什么,以及这如何映射到分布之外的真实任务,都有疑问。即使本文没有声称在能力方面超越最先进水平,它也对这些模型的强大程度做出了强有力的声明。我们并不是说它们不强大,但本文需要更多证据来支持这些声明。

我们缺少对本文局限性的明确陈述。我们在附录中解释了出错的事情,这对报告来说是非常积极的,R1-zero是出现局限性的第一阶段,R1解决了其中许多问题。但可能还有其他局限性和未来工作。实际上,作者自己在R1仓库论文中说”DeepSeek-R1在软件工程基准测试上没有显示出比DeepSeek-V3的巨大改进”。为什么本文没有讨论这一点?

F. 建议的改进:实验、可能修订的数据

虽然作者声称他们”向研究界提供了全面的技术细节”,而且确实在某些方面这篇论文比其他实验室的许多可比模型提供了更多细节,特别是OpenAI、Google、Anthropic、Meta和Mistral,但仍然到处都缺乏细节。

我们建议以下改进:

对这些模型的能力、可用性和安全性的评估是该领域领导者的伦理责任,DeepSeek似乎正在这个领域定位自己,所以责任很大。在仓库论文中,作者说:“我们将探索更全面和多维的模型评估方法,以防止在研究过程中倾向于优化固定基准集的趋势”。我们希望在本论文中包含一些这样的探索。

由于上述所有建议的修改,我们还认为论文的结构应该大幅修订,遵循Nature论文更经典的组织结构,将动机、结果、方法和细节分别在附录中分离。

G. 参考文献:

总的来说,包含了关键参考文献,但如果修订包含更多细节和相关工作部分,那么我们期望更好地覆盖以前的工作,特别是在科学意义和来自AI的各种技术整合方面。

对于涌现和缩放定律,引用了Wei等人2022a,但以下是关于此的更值得注意的引用,因为它开始了这一切:

但推理缩放定律和蒸馏缩放定律也应该包含:

应该覆盖更多关于思维链方法的内容,以及基准测试,特别是评估方法。参考文献过多关注最近报告模型和结果的论文,但对科学应该建立的技术和方法论以及该领域的历史关注不够。

H. 清晰度和背景:摘要/总结的清晰度,摘要、引言和结论的适当性

论文写得很好,非常易读,特别是主论文只关注关键想法和主要结果,并将细节留给附录。这是一个好的开始,但不符合常规科学论文的标准,我们期望看到对事物为什么起作用的更好分析、相关工作以及方法论、实现和结果的更多细节。

I. 代码可用性备注

权重在这里:

https://github.com/deepseek-ai/DeepSeek-R1

但强化学习代码或整个流水线没有。这必须出于安全原因或竞争性而进行合理化,或者为了完全可重现性而可用。

至少应该提供完整的实验结果(实例级别),以及使用的所有数据(或其样本),以便能够确定其组成和结果的含义。

J. 更详细的评论

在本节中,我们包含更具体的评论,但解决或回复上述表达的所有关键点的重要性并不因下面可能更容易解决的问题而减少。我们按照论文中的章节进行,以便于定位。

摘要:

应该避免”高级智能”等术语。

第1节

作者提到”从数学问题解决到逻辑推理和编程的复杂认知任务”,但”逻辑推理”不是任务,而是过程甚至能力。它与数学问题解决和编程不在同一级别。

类似地:“更广泛地获得智能”。最好重新表述为”更广泛地获得强大的人工智能”。

第2节

大部分细节都提到了附录,但解释AIME(美国邀请数学考试数据集),其中一个基准测试,显示他们将数学问题作为输入,将数字作为输出,将有助于解释图1,特别是在解释起始准确率约0.15-0.25、人类基线和”基于规则的奖励系统来计算准确率”的解释。许多读者可能不知道思维链是什么。因此,显示一个例子、关于正在使用的基准测试的更多细节等,将有助于论文的可访问性。

在图1中,“人类专家”是什么?

表2中的例子是从AIME提取的吗?

避免使用”令人印象深刻”等词汇——探索更具体和科学精确的替代词汇。

本节甚至没有提到基础模型是什么。引言说”我们基于DeepSeek-V3-Base构建”,然后下次提到是在第6页的图2中,但有两个模型,DeepSeek v3 Base和DeepSeek V3(标准?),所以我们不知道哪个用于R1-Zero以及为什么。应该给出关于此模型的完整细节或包含简短摘要以及提供所有这些信息的来源链接。V3论文在引言中被引用,但我们需要关于这些模型的更多细节,包括它们的局限性,因为这可能解释为什么这里介绍的一些技术起作用或可能不适用于其他大型模型。

第4页包含:“通过自一致性(self-consistency)(Wang et al, 2022)技术,模型性能可以进一步提升到86.7%”。这个句子在语法上不正确,cons@16指标需要被描述清楚。这是16次运行中的多数结果吗?需要在图1和正文中添加解释。即使它在附录中,也只需要一句话说明pass@1是一个项目k次重复的平均性能(因为使用了温度参数),而cons@16是这些k次重复中的多数结果。

作者说存在”复杂行为的自发出现”。但同样不清楚这其中有多少在Deepseek v.3.0中就已经存在了。我们知道性能有所提升,但说”复杂”行为出现是另一回事。复杂性被认为包括”反思推理”和”探索替代解决方案”。Deepseek v.3.0配合CoT提示在这两种行为上能达到什么程度?实际上,在表B2中,作者似乎使用了0-shot提示而不是CoT。这使得这些模型与推理模型之间的比较不公平。Deepseek配合CoT的潜力应该是起点,特别是对于Zero版本,以及冷启动后如何变化等。

“顿悟”的例子确实很好,但在没有更多数据的情况下,我们不能从中推广并说它”开始表现出反思性、拟人化的语调,暗示更深层次的认知处理”。能力是无法测量的,只能测量性能,所以这无法得知。要确定真正的能力,我们需要对元认知、抽象等进行单独维度的评估,以及难度等级,才能真正谈论诸如”更深层次的认知处理”这样的事情。

第3节

本节提到了一些基准测试,但人类基线在图3或正文中再次没有明确说明。对于AIME:“已经超越了大多数对数学充满热情的高中生”。这是人类基线吗?对于Codeforces,“DeepSeek-R1取得了显著成果,超越了96.3%的人类竞争者”。这些竞争者是谁?分布如何?然后,“对于GPQA,其中人类专家是具有网络访问权限来回答问题的博士级个人,人类表现出比DeepSeek-R1更好的性能”。人类基线不可比较,因此在手稿的其他部分概括为”人类水平”或”专家水平”是不准确的。

第4节

本节非常简短,因为蒸馏是一个更标准的程序,但是了解与基础模型和用于蒸馏的模型相比我们发现了什么样的限制仍然是有见地的。我们想知道”子”模型在哪些能力上与一个或另一个”父”模型更相似,以及缩放如何影响这种蒸馏。

讨论

本节并没有真正分析为什么结果是这样的。它更像是一个影响和作用部分,而不是技术论文或AI科学前沿的科学贡献。没有讨论限制。

附录A. 数据

A.2.1对于有多少基准测试需要数字、是多选题还是有其他挑战不够清楚(A4.1对RL数据稍微更具体一些,但表格和示例会更好)。作者提到LeetCode,说其评估需要运行生成的代码。但本文其他地方没有提到LeetCode。本文中是否有其他基准测试需要运行代码?如果是这样,这如何影响RL过程的速度?图A1似乎包含一个”代码执行器”作为基于规则的奖励模块的一部分。据说”虽然这个模块不需要将模型加载到GPU内存中,但其执行往往很耗时”,没有进一步的细节。

准确性和格式奖励如何结合成单一奖励?

作者说”我们观察到神经奖励模型在大规模强化学习期间容易受到奖励黑客攻击”。这个观察应该得到更好的解释,论文应该展示这方面的证据。

A.2.2:同样关于无害性的细节很少。据说与他们为DeepSeek V3所做的类似,但这应该详细解释。安全测试和风险缓解是关键的,应该详细解释。

批评模型被称为”可选的”,但这应该澄清。我认为这意味着一些RL算法有批评者而其他没有,所以在文本和图中最好描述为”如果算法需要”或”如果需要”。但这也表明可能存在其他RL算法的结果,但没有报告。

A.4.1(RL数据)应该配有一个表格,包含关于数据集的所有细节,就输出类型而言,以便更好地描述所使用的示例。

A.4.2(SFT数据)这里有更多细节,但仍然远远不够确保可重现性。据说对简单数学问题使用few-shot并结合”反思和验证机制”。这再次需要作者对此含义的完整细节以及示例或结果。

推理数据也需要更多细节。这包括600k推理示例,特别是使用”通过将真实答案和模型预测输入DeepSeek-V3进行判断的生成式奖励模型”

超参数选择部分是需要的,但由于缺少许多其他细节,不足以确保可重现性。

附录B. 评估

本附录仅列举了基准测试并添加了更多结果,但没有提供评估所需的必要细节,如污染(contamination)问题(更准确地说,哪个阶段使用了哪个基准测试,基准测试之间的相似性等)。仅报告了性能,但无法从这种方法中提取出实际能力的指示,也无法了解模型在新基准测试或新项目上的表现,特别是当它们与整个过程中使用的基准测试不同时(分布外)。

我们看到AIME被用于评估,因此似乎与用于强化学习的数学数据集(26k问题)存在污染,该数据集包含数学考试题目和竞赛问题,或者如果在预训练或监督微调中使用的话,污染可能更严重。我们根本不知道。AIME被用于蒸馏模型的评估。

看到MMLU按类别的收益细分会很有用,同时也看看是否有任何类别出现退化。

“标准基准测试”部分的大部分内容都是对结果的评论,但没有真正提供关于评估选择和污染特殊分析的更多信息。

我们读到:“DeepSeek-R1在IF-Eval上也取得了令人印象深刻的结果”。再次避免使用”令人印象深刻”或类似词语。

图B2和B3是截图。第一个缺少时间戳(据说是在一月份的某个地方),可能是发布后不久(因此置信区间很宽)。无论如何,应该包括对这些截图的更多解释以及截图的一些演变。

表B3是我们期望的那种分析,有助于理解结果并支持技术的泛化性。在这里,他们用另一个模型Qwen探索强化学习,表明这种强化学习方法至少适用于另一个模型。不幸的是,这只是一个案例。需要更多案例。

附录C. 未成功的尝试

这个附录很有见地,我们赞扬作者包含了它,但我们希望看到更多这样的内容,对确实有效的方法的其他部分进行消融实验。

参考文献

在许多情况下,引用的是论文的arxiv版本,而不是期刊/会议版本,例如,Wei J, Tay Y, Bommasani R, et al (2022a) Emergent abilities of large language models. arXiv preprint arXiv:220607682在机器学习研究交易期刊(08/2022)上发表。

审稿人#7

(对作者的意见)

我与提供上述报告的审稿人之一共同审阅了这份手稿。

审稿人#8

(对作者的意见)

我被要求就以下具体要点对手稿提交一些快速评论:

对于R1,论文采用SFT之后进行RL(然后进行SFT进行对齐)。RL之前的SFT用于避免模型在思维链(CoT)中切换语言。SFT中使用的示例轨迹的来源据说是”DeepSeek-R1-Zero的早期检查点,用于为DeepSeek-R1创建数据”。

如果模型在训练流程的任何时点使用来自更强大模型的数据进行训练,那么这项工作可以被解释为一种蒸馏形式,而不是有助于我们理解如何在无法从其他大模型进行蒸馏的情况下构建大模型。

详细要求:

版本1:

审稿人评论:

审稿人#1

(对作者的意见)

总结

作者已经解决了我所有的担忧,主要是通过在附录中添加内容。我剩下的主要担忧是,他们在附录中提到的一些细节真的应该在主论文中突出显示,特别是关于奖励模型的细节和评估R1在不同训练阶段的结果。我认为这两个都比蒸馏结果更有趣,应该包含在主论文中,作者承认蒸馏结果并不是这项工作的新颖贡献。

几点说明

在回应中,作者写道:

“结果表明,虽然我们的模型在相对简单的基准测试上表现良好,但与西方模型相比,在更具挑战性的安全评估上表现略低。”

然而,论文中新增的文本似乎过度声称了模型的安全性,写道”模型安全评估[证明]我们的模型与人类价值观一致,对社会无害。“我不认为模型偶尔不安全是拒绝论文的理由;然而,作者应该诚实地讨论他们的结果。除非他们能证明他们的模型对社会无害,否则他们不应该做出这种声明。

新论文版本中也存在一些小的写作问题。我注意到最严重的问题出现在第4节的第二段,需要仔细校对,但其他一些新文本中也有少量英语错误。

审稿人#2

(对作者的意见)

亲爱的作者们,请在下方查看我们对您修订的DeepSeek-R1手稿的意见。我们感谢您回应了我们对初版的所有意见,并建议在进行一些小的修正(详见下文)后发表修订稿。

建议改进

错别字:

图表:

感谢您更新图2并澄清中间的”R1-dev”模型。这个图表能否更新以包含R1-Zero训练、过滤和人工/LLM修订的流程?我们认为这为R1训练流程的冷启动CoT(思维链)步骤提供了输入。这样图表将显示从基础模型到R1的整个流程的全局视图。

此致敬意, Lewis Tunstall博士和Edward Beeching博士

审稿人#3

(对作者的意见)

感谢您对我的意见的回应以及您对手稿所做的更改——无论是回应我的还是其他审稿人的意见。

基于您的回应,我有两点进一步的意见:

  1. 我发现您对关于拟人化的第1条意见的回答仍然相当不令人满意。说”当推理过程与类人思维模式一致时,用户倾向于发现回应更直观和引人入胜”是一个相当模糊的陈述,因为您既没有定义也没有评估这种思维模式的中间标记(tokens)。您只是依赖于人们”发现”它们更有吸引力。

我的担忧是,这种策略是对人类认知缺陷的直接攻击。想象一下R1给出一个最终用户无法独立验证其正确性的答案。在这种情况下,这些”喃喃自语”可能只是产生对解决方案不应有的信任。

我请求您考虑在手稿中添加一些评论来解决这个担忧。

  1. 在回应我的两条意见(第2条和第5条)时,您提到您认为RL主要负责生成长链中间标记。我有两个建议。首先,在手稿中更明确地阐述这一点。其次,考虑长中间标记的出现可能只是您将最终奖励平均分配到中间标记的方式的人工产物(因此激励RL制作越来越长的序列——无论它们是否真正需要/重要)。我确信您知道在您的工作之后有一个小产业的论文试图让R1类系统产生”更短”的中间标记!如果您能在手稿中解决这个问题将会很好。

  2. 关于您对第5条意见关于MCT与中间标记序列的测试时计算的回应,我不确定我认同R1正在自适应分配测试时计算的论点——特别是考虑到我上面的观点。尽管如此,如果您能在手稿中也包含回应的相关部分,让读者了解您的立场,那将会很好。

——Subbarao Kambhampati,亚利桑那州立大学

审稿人#4

(对作者的意见)

我与提供列出报告的一位审稿人共同审查了这份手稿。

审稿人#5

(对作者的意见)

我与提供列出报告的一位审稿人共同审查了这份手稿。

审稿人#6

(对作者的意见)

我们已经阅读了作者对我们意见以及其他审稿人意见的回应。我们赞扬作者进行了这次相当彻底的修订。我们在前一版本中的许多担忧已经得到了或多或少的解决。论文现在在解释事物如何工作、支持结果和为这些结果找到解释方面更加完整。我们将重点关注我们在之前审查中提出的两个主要问题——安全性和能力评估,然后我们将提及一些仍然存在的其他问题(旧的和新的)。

安全评估:

安全评估(附录D3)大部分是新的,包括现有和新的基准测试,以及一些创新。总的来说,这些材料是好的且充分的,但考虑到这个模型的影响,我们需要一些额外的调整和澄清。

首先,这些实验足以表明该模型与其他模型相当,但并不能证明其安全性。例如,“证明我们的模型与人类价值观一致且对社会无害”这样的表述过于夸大。人类价值观并非普遍一致的(https://spssi.onlinelibrary.wiley.com/doi/10.1111/j.1540-4560.1994.tb01196.x, https://www.nature.com/articles/s41467-024-46581-5),而”对社会无害”这一说法过于宽泛,难以证明,特别是对于一个已经发布权重的模型而言,其长期影响更是如此。我们建议作者更加客观,例如,在标准安全基准测试中,在所包含的类别方面取得与其他模型相似的结果。一个悬而未决的问题是”内部过滤系统”的使用,它可以弥补在某些安全基准测试中的有限结果。重要的是要明确,这并不适用于这个开放权重模型的广泛使用,因此这种比较对模型的许多用途来说是不公平和有限的。当然,微调(finetuning)可以移除任何发布权重的模型(如Llama)的对齐,但如果这些过滤器包含在表格和结果中,那么就应该解释它们(现在没有),以便用户可以实现类似的过滤器并获得类似的安全水平。此外,应该对不使用这些过滤器的模型使用情况给出明确警告。如果没有后置过滤器,结果分析会更简单,混淆因素也会更少。术语上的一些澄清会有所帮助,“内部过滤系统”似乎就是”风险控制系统”,只是名称不同?无论如何,这个风险控制系统如何工作都应该得到解释。

D3.1很好,在安全基准测试的使用方面非常标准,并与一些明确的基线进行比较,如Claude。D3.2令人惊讶,因为它本身就是一项贡献。在这里,结果比标准安全基准测试更差。我们赞扬这一包含,但我们缺少对为什么D3.1不够的解释。由于D3.2引入了新的方法论和分类法,我们需要更多关于危害分类法的灵感和相关工作的信息。作者应该证明为什么他们的分类法是合适的,甚至可能比先前工作提出的更好(例如,https://dl.acm.org/doi/abs/10.1145/3531146.3533088, https://arxiv.org/pdf/2408.12622,仅举几例)。

表D7解释得不是很清楚。不安全(Unsafe)和拒绝(Reject)是两个相对的指标,需要权衡:通过的不安全内容,以及作为没有通过的安全内容的拒绝,如果我们理解正确的话(那么一行就足够了,所以简化解释)。如果我们理解错了,那么无论如何都要澄清说明。由于这两个指标是权衡关系,单独用粗体标记它们是误导性的。一个拒绝一切的模型在一列中会有最好的结果。因此,要么结果表示为带有帕累托(Paretos)的二维曲线,要么使用不安全+拒绝的总和来比较模型,以清楚地看到Claude击败了所有其他模型。D8也是如此。报告结果的方式需要改变,因为当前的方式是误导性的。

D3.5非常重要,我们也赞扬作者的这一包含。然而,为什么PRK-QA的分类法与一般风险分类法不同,在包含什么、排除什么以及突出什么方面?CBRN是一个常见的分类法(+网络),这里我们发现了两个C和N和R(都在核技术下),但没有B(生物危害),这肯定是危险的。为什么不呢?我们真的喜欢包含心理风险(心理健康),但那么为什么不包含所有身体健康?例如,看到”性别转换”作为六个主要项目之一,与”核技术”处于同一级别,令人惊讶。我们可能同意作者的观点,即没有医疗咨询的性别转换手术是有风险的,但为什么只有”性别转换”程序,而不是许多其他医疗或自我改造程序?在家纹身、有毒饮食或自我用药的风险,可能比”性别转换”更危险。为什么这种固执?这些类别应该通过其频率或损害程度的证据来证明,或者修订为更全面和平衡。顺便说一下,我们不理解表D9中的粗体。更高应该更糟,那么为什么最高的数字是粗体?在图D11中,“R1check”没有解释。再次,是否使用了系统过滤器?似乎再次表明,如果没有这些过滤器,模型相当脆弱,这是一个主要关注点,因为它们已经作为开源发布。

关于敏感或危险知识和思维链(chain of thought)的部分非常有价值,但作者声称这对推理模型是通用的,但这是否发生在OpenAI的oX系列中,或者这是思维链被处理或隐藏的一个原因?这与深思熟虑的对齐(deliberative alignment)有什么关系?(https://openai.com/index/deliberative-alignment/) 正如我们所说,我们认为新材料是充分的,但考虑到这个模型非常强大,具有开放权重且易于访问(特别是蒸馏版本),我们希望看到更多关于其滥用的讨论,也许在Nature论文通常包含的”包容性和伦理”部分中。

能力评估

虽然在一些结果中使用难度指标澄清了我们提出的一些问题,但报告的结果仍然是基于百分比比较而非能力的形式,我们并不真正了解基准测试实际测量的是什么。例如,C1现在包含了难度指标,但不清楚它们的含义以及使用的是什么尺度。图6显示了随着步骤数增加的演化过程,对于简单示例(级别1,从0.95的准确率开始,最终还是0.95的准确率),结果是平稳的。它们从未达到1,并且被更困难的区间超越,这可能显示了一些”过度思考”?级别1问题出现5%失败率的原因是什么?作者说”模型发展出了跨问题复杂性泛化的高级推理能力(advanced reasoning abilities)“。这句话实际上没有什么意义,除非我们知道这5%的失败不是由于缺乏数学能力造成的,而是因为那些任务可能需要模型不擅长的其他能力。但这是我们不知道的,因为没有对每个基准测试的需求(不同能力)进行分解。使用当今非常易于获得的工具,可以很容易地构建基准测试需求档案(benchmark demand profiles)和模型能力档案(model ability profiles):https://arxiv.org/abs/2503.06378 将其与那里包含的模型档案进行比较也应该很容易。

实际上,表D11显示编程的简单问题达到了100%,所以这里没有剩余的5%示例因为虚假原因无法解决。这是良好的行为,而不是之前误导性的陈述,即模型”跨问题复杂性泛化”。现在模型正在解决所有简单问题(100%),大部分中等问题(83%),但在困难问题上仍然困难重重(34%),所以在这种情况下而不是在图6中,它真正获得了泛化性。泛化性意味着在一定难度水平内能够很好地应对任务的所有变化,当我们看到性能根据难度递减时就会出现这种情况,如表D11所示。

此外,图D14的分割(在数学子类别中)可能只是因为难度差异(自然期望组合几何问题比组合学和几何问题单独来说更复杂,因此更困难),而不是因为它们在这些类别中表现更好或更差,特别是因为没有包含其他基线模型。实际上,标题甚至没有命名模型。在评估中有许多按领域划分的有趣切片,但这再次依赖于基准测试的设计者,可能某些领域包含该领域之外的需求,或者难度范围不同。需求档案(demand profile)将澄清所有这些。我们对使用AIME 2025感到满意(尽管仍然是非常相似的分布。结果不言自明)。ARC对本文的目的不是很有用(与其说是分布外基准测试,不如说是一个异常值)。它测量的是其他不是推理的东西(如几何基元的组合,更像是归纳推理能力(inductive inference power)),这里使用的版本ARC-AGI-1(“ARC基准测试的特定版本”),在多模态和网格大小方面似乎相当有限。我们建议删除这一部分,因为基准测试具有误导性。此外,基准测试的描述相当非正式(“问题在哪里?”),似乎是从竞赛宣传材料中改编的。实际上,在(Chollet 2019)中,理论构造和基准测试之间存在脱节,这是为什么这个基准测试在不知道它测量什么的情况下可能具有挑战性的另一个原因(参见https://aiguide.substack.com/p/on-the-arc-agi-1-million-reasoning/comments,或https://aiguide.substack.com/p/did-openai-just-solve-abstract-reasoning)。本文的作者不应该陷入仅仅因为一些公司在使用就对我们不知道测量什么的基准测试进行模型测试的陷阱。

再次,表B1遵循了几位审稿人关于更多透明度和关于基准测试格式及其规模细节的要求,但对基准测试测量什么的了解并不多。这意味着我们需要相信基准测试创建者声称他们测量的内容,但基准测试在许多情况下对它们声称测量的需求缺乏特异性和敏感性。

去污染:” 10-gram序列”是一种非常温和的去污染方法!作者称其为”严格的”,但这只排除了精确匹配。最后一段正是这样说的,所以我们建议使这些表达更加平衡,并提供更多关于被排除示例百分比的证据。最后,C2显示了使用增加的反思词汇(reflection words)。这真的很有洞察力,但这些词汇是如何选择的?作者能否包含完整列表和纳入标准?此外,在使用和不使用思维链(chain of thought)的Deepseek V3推导中,它们出现的频率如何?还应该澄清频率是词汇频率(token frequency),而不是每个答案的频率,因为随着步骤数的增加,答案变得更长。

其他要素:

D5包含许多折衷的东西,标题过于宽泛,可以分割或重组(“测试时扩展(test-time scaling)”适合放在这里吗?)。图D15(时间vs难度)非常有趣,但它是用LOESS拟合还是移动窗口平滑的?所有新图形的标题通常需要更多关于我们在图像中确切看到的信息,首先要命名模型(即使在图形周围的正文中已经说过)。

我们之前评审中的一些评论(例如,评论9关于重构论文,评论10关于评估和推理的参考文献)留待未来版本处理。这只会拖慢进程,因为结构变更通常会影响论文的理解难度。表述清晰度是接受的重要标准。例如,附录G中的局限性在那里没有意义,应该用来结束论文(也许连同E.1一起,它也包含局限性,特别是关于验证器的那个,这也与工具相关)。同样,软件工程和强化学习工具的局限性也是如此。这可以重新组织(相关工作可以部分移到补充材料中)。换句话说,包含这些元素的适当讨论部分应该在论文中,而不是散布在附录中。考虑到评审员的所有建议,我们希望评判一个新版本,该版本根据新材料以有意义、易理解的方式重新组织。同时仔细检查拼写错误、前后引用等。

细节问题:

第2节(第4页):‘’significantly boosting its performance on complex tasks.’’. 请澄清这些复杂任务具体是什么,否则这是夸大其词。该模型主要应该在可验证任务如数学和编程上提高了性能,但我们怀疑这是否适用于许多其他情况。

第2节(第4页):‘’significantly boosting its performance on complex tasks (see Figure C7(a) in Appendix C.2 for details).’’ 对附录C.2中图C7(a)的引用似乎是错误的,因为这些图并不讨论DS-R1-Zero在任何复杂任务上的性能,而是讨论DeepSeek-R1-Zero在训练期间推理行为的演化。

第2节(第5页):‘’new levels of intelligence in LLMs’’. 最好说LLMs的新/更高能力水平而不是智能。此外,能力应该得到良好评估,不仅仅使用总体性能分数,而是通过需求水平来推断。

第5.2节:“As unsupervised pre-training scaling is increasingly constrained by the amount of available human data”。似乎有一些共识认为预训练缩放正在遭受收益递减,但原因是可用数据并不清楚(https://arxiv.org/abs/2211.04325)。请限定这个句子。

附录A.1 避免使用”boasts”等词汇。

附录A.2. “Despite its strengths, The performance” -> “Despite its strengths, the performance”

附录B.3.2. 清单1:“Prompt for produce a human-readable solution.” -> “.. producing…”

附录C.2 “We counted” -> “we counted”.

附录D. “The security and ethical considerations of language models have been our primary focus since day one.” 避免对公司意图或文化或作者的判断,只限于论文中显示的证据。“we refined evaluation approach” -> “we refined our scoring approach”

图D10. “Taxnomy” -> “Taxonomy”.

D.5: “As illustrated in Figure ,” ?

D.6: 为什么DeepSeek-R1-Zero-Qwen-32B这样称呼?不应该是Qwen32B-R1-Zero吗?DeepSeek v3在哪里使用?

D.6: “advancing beyond the boundaries of intelligence”. 我们认为作者特指的是’人类智能’。

E.1: “including a 33B dense model”. 不是32B吗?

G: “Currently, the structure output capabilities of DeepSeek-R1 fall short of general models, which produces more flaws when user requires to return a Json function”. 修改语法。

在一些表格中(如D7 D9),有多个数字加粗。在D7中我们有3.6和5.4加粗(最后一列),但5.6没有。我们想知道什么测试在最佳和其他之间做出这些区分/截止?在之前的评审中我们提到了这在哪里解释,也许我们仍然遗漏了,但应该在标题中提到使用的具体统计显著性检验。

评审员#7

(对作者的评论)

我与提供所列报告的评审员之一共同评审了这份手稿。

评审员#8

(对作者的评论)

非常感谢您的回答和额外结果——我认为这些极大地改善了论文。

我有一个关于推理轨迹数据污染的主要担忧没有得到回答(我在原始评审中的评论4)。您说”DeepSeek-V3-Base已经接触了大量推理轨迹数据”。我最初的请求是要求使用没有接触推理轨迹的基础模型运行实验。作为回应,您添加了Qwen 2.5 32B的新结果(非常感谢)。然而,Qwen 2.5 32B在o1之后发布,与V3有相同的问题(推理轨迹数据污染)。您能否在表D14中使用在任何推理轨迹公开发布之前开发的基础模型运行实验?

我还有几个改善论文的小要求:

版本2:

评审员评论:

评审员#6

(对作者的评论)

我们已经仔细阅读了论文和补充材料的新版本,以及反驳信,其中作者解释了他们如何处理上一轮评审的评论,包括我们的评论。

总的来说,作者已经解决了我们的担忧,尽管他们没有包含我们建议的所有指针或评估。我们的大部分评论涉及补充材料的两个主要部分:安全评估和能力评估。

关于安全评估,我们对额外的澄清和对开放权重模型使用的警告感到满意,现在这些内容已在伦理和安全声明(主文章)中表达。表7(补充文件第39页)仍然存在问题,因为不安全减少只有在高拒绝率的情况下才能实现,对于DeepSeek模型来说反之亦然。单独显示粗体数字是误导性的。例如,突出显示DeepSeek-R1 + 风险控制系统在Unsafe项目中的6.5值(当它在Reject项目中有13.1)是不公平的,相比之下Claude Sonnet的7.5, 0.7这一对数值明显更好,当与另一个值配对时,7.5的Unsafe值是有意义的。正如我们在之前的评审中所说,可以使用考虑不安全和拒绝两方面的综合指标进行排名,而不是使用学生t检验进行单独排名。如果不按建议进行(或使用两点的帕累托图),那么最好删除单独情况下显著更好的数值上的粗体标记。

关于风险分类法,作者在这个版本中解释说他们”并不追求全面性,而是寻求多样化的学科背景以促进对这一问题的深入讨论”(第4.3.6节)。我们可以理解这对能力评估的意义,但发布一个将变得非常流行并被许多人使用的模型应该承担进行彻底和全面安全评估的责任。我们不确信拥有可能具有双重用途的”中性”答案是否如此相关或新颖,以至于建议改变/创建分类法,特别是在已经存在安全分类法和基准的情况下。一些重要类别被遗漏了,而其他一些则过于单薄。例如,将”性别转换”作为医疗信息误用的唯一案例是一个非常任意的选择,并不能排除模型在许多其他医疗领域向用户提供潜在有害信息的可能性。当然,作为开放权重模型,任何具有最基本知识的用户都可以通过微调模型来绕过任何保护措施,但问题可能在于经验较少的用户可能会按原样使用这些模型,考虑到它们现在很容易获得。一个问题是这个模型有多安全的科学问题,PRK-QA可以”促进深入讨论”,揭示非CoT和CoT模型之间的差异,但另一个问题是发布如此强大模型的伦理责任。

关于能力评估,作者现在更好地解释了难度的影响,尽管评估仍然受到难度分布的影响,因为论文只显示总体性能而不是能力。虽然不够充分,但由于这是当今评估和比较模型的标准方式,我们可以保持原样。关于每个基准实际测量什么,我们看到第10节的标题包含描述,可能改编自原始存储库或论文,而不是使用类似的能力分类法来理解这些基准测量的内容。例如,表22的标题说FRAMES是为RAG系统设计的,测量”检索”等等。但考虑到这不是RAG情况(因为链接是给定的),检索没有被测量,而只是从文本中提取事实信息,就像DROP一样。在其他情况下,如表23,我们看到示例来自Arena-Hard,但我们不知道它们在测量什么。AlpacaEval也是如此。对于改变扩展范式的模型,了解基准中项目的能力组成更为关键,特别是对于推理能力,以真正理解性能提升是否发生在与推理相关的任务中,可能是以其他能力为代价,因为使用了RL。新信息有所帮助,但仍然不够。没有对每个基准评估的能力进行适当分解,我们从能力评估中得到的视角是相当模糊的,不应该被称为”能力评估”,而应该只是”性能评估”。

我们对论文和补充材料的新组织感到满意。总的来说,论文在这次迭代中得到了显著改进。

错别字。第54页。“In the Table 15” -> “In Table 15”

评审员#7

(对作者的意见)

我与提供所列报告的评审员之一共同评审了这份手稿。

评审员#8

(对作者的意见)

我对回应足够满意,但注意到一些请求仍未得到回答,特别是评估V3 Base和V3性能的对照实验请求。作者说”我们在附录4.4中包含了一个新表,展示了V3 Base和V3的性能指标”,但是没有附录4.4,搜索这些结果显示它们没有包含在手稿中。

我愿意建议有条件接受,条件是将这些结果添加到手稿中。

开放获取 此同行评议文件根据知识共享署名4.0国际许可证授权,该许可证允许在任何媒介或格式中使用、共享、改编、分发和复制,只要您适当地归功于原作者和来源,提供知识共享许可证的链接,并说明是否进行了更改。

在审稿人匿名的情况下,应将功劳归于”匿名审稿人”和来源。除非在材料的署名行中另有说明,否则此同行评议文件中的图像或其他第三方材料均包含在文章的知识共享许可证中。如果材料未包含在文章的知识共享许可证中,且您的预期用途不被法定法规允许或超出了允许的用途,您需要直接从版权持有者处获得许可。

要查看此许可证的副本,请访问 https://creativecommons.org/licenses/by/4.0/

Nature逐点评议第一轮

对审稿人的回复

稿件编号: [2025-02-03814]

标题: DeepSeek-R1:通过强化学习激励大语言模型的推理能力

亲爱的编辑和审稿人,

我们诚挚感谢审稿人的建设性反馈,这些反馈帮助我们显著改进了稿件。在修订稿中,我们添加了更全面的细节,特别是关于训练数据集、GRPO细节、评估结果和模型安全分析。下面,我们对每个评论提供逐点回复。修订稿中的所有更改都用黄色文本突出显示(或跟踪更改)。如果某个章节标题被突出显示,表示整个章节都是新增的。

总体修订

  1. 安全评估: 我们纳入了一个专门评估模型安全性的详尽章节。更多详情请参阅附录D.3。在本章节中,我们首先使用公开可用的安全基准评估我们模型的安全性能。结果表明,虽然我们的模型在相对简单的基准测试中表现良好,但在更具挑战性的安全评估中与西方模型相比表现略差。然而,我们在网页和应用平台上部署的内部过滤系统有效地减少了不安全的回复。此外,我们调查了模型的鲁棒性及其对潜在风险知识的处理。我们的发现表明,具有推理能力的模型(如DeepSeek-R1)与缺乏明确推理能力的模型相比,倾向于暴露更多潜在敏感或风险知识,尽管对对抗性提示的敏感性仅为中等程度。值得注意的是,思维链推理过程本身引入了更高的信息密度,这突出了模型透明度与安全考虑之间的根本张力。

  2. 模型蒸馏:我们理解模型蒸馏是DeepSeek模型开发中广泛讨论的话题。在预训练阶段,我们承认收集的网络数据可能包含由GPT-4等先进模型生成的内容。然而,考虑到互联网上合成内容的广泛存在,这在当前大规模语言模型训练中很难避免。

需要注意的是,DeepSeek-V3-Base并未包含涉及大规模监督蒸馏合成数据集的明确”冷却”阶段。相反,所有训练数据都来源于网络并反映自然分布。因此,任何对合成内容的接触都是偶然和间接的,反映了许多最先进语言模型采用的标准数据收集实践。此外,DeepSeek-V3-Base的预训练数据收集截止日期为2024年7月,当时尚未发布任何公开可用的先进推理模型。这进一步降低了从现有强大推理专用模型进行意外蒸馏的可能性。

重要的是,本文的核心贡献——R1-Zero——不涉及从先进模型进行任何蒸馏。强化学习(RL)组件是独立训练的,不依赖于GPT-4或其他类似能力模型的输出或指导。如审稿人6所指出的,R1-Zero是纯粹强化学习(使用去年引入的最新高效GRPO算法)应用于足够好的预训练大语言模型以受益于思维链(CoT)的第一个明确成功案例(至少公开的)。总共166k个问题和基于规则奖励(正确性和格式)的直接强化学习算法足以将传统模型V3转变为更好的”推理”模型。

我们认为,R1-Zero具有特殊的科学意义,因为它证明了强化学习可以在没有大量人工监督的情况下以端到端的方式有效应用。相比之下,R1模型代表了一个为实际部署和可用性优化的更精细版本。如表D9所示,R1和R1-Zero在以推理为中心的基准测试中取得了可比的性能。此外,它们在完全未见的ARC-AGI-1测试集上的性能几乎相同(表D12),强调了纯基于规则的奖励函数以及166K训练实例足以开发强大的推理能力。我们不需要额外的强大模型来教授DeepSeek-R1推理任务。在开发时,没有模型显示出比R1-Zero显著优越的性能(o1在推理基准测试中与R1-Zero相当或略好)。为了进一步使模型输出与人类偏好保持一致并提高整体可用性,R1包含了额外的训练数据,这些数据包括在大语言模型协助下生成的人工注释。这里的动机主要是产品驱动的,强调增强用户体验。

体验。当推理过程与类人思维模式(从R1-Zero到R1)相符时,用户往往发现响应更加直观和引人入胜。

  1. SFT和RL细节: 在附录B和C中,我们提供了关于监督微调(SFT)和强化学习(RL)阶段所使用数据集的更多细节。我们还包含了RL阶段采用的训练超参数,以增强我们实验设置的可重现性和透明度。我们相信研究社区可以轻松收集到质量和数量相当的数据,从而促进我们方法的可重现性。

  2. 结果的额外分析:

  3. 我们在附录D4中提供了R1在不同阶段的详细评估,包括对初始R1-Zero模型的分析。

  4. 在附录D5中,我们引入了分布外(Out-of-Distribution, OOD)分析,利用ARC作为测试集,该测试集既未包含在预训练中也未包含在监督微调(SFT)中,以评估泛化能力。我们通过纳入R1首次亮相后发布的考试(如AIME 2025)来扩展我们的评估,以评估模型处理未见任务的能力。我们进一步通过将结果分解为数学和编程中的不同类别和难度级别来分析性能,从而更全面地理解模型的优势和局限性。我们评估了模型在MMLU和MMLU-Pro各类别上的性能,并与DeepSeek-V3进行比较。

  5. 对于R1-Zero,我们专门评估了训练过程中不同难度级别的性能,如附录C.1所示,提供了关于模型在其开发过程中如何演进的见解。

  6. 局限性、相关工作和未来工作: 我们在主要手稿中添加了”相关工作”部分,以更好地提供我们贡献在现有文献中的背景和定位。此外,我们在附录G中包含了对我们方法局限性的讨论以及未来研究的潜在方向。

审稿人#1

评论1:

[图2令人困惑,需要一个详细的说明来解释正在发生的情况。“DeepSeek V3 Base”和”DeepSeek V3”(左上和中上的紫色框)之间有什么区别?我在论文的任何地方都找不到”DeepSeek R1 Dev”的提及,除了这个图。如上所述,在结果部分看到”DeepSeek R1 Dev”和”DeepSeekR1”之间的性能比较会很好,以便理解SFT/RL的第二阶段如何改进性能?]

回应:

我们已经修订了图2的说明,以清楚地解释”DeepSeek V3 Base”、“DeepSeek V3”和变体”DeepSeek R1 Dev”,并链接到附录A.1以获取更多细节。此外,我们在表D9中报告了每个开发阶段的性能指标,以促进对模型进展的更全面理解。

评论2:

[在第4页,作者应该解释当他们提议从监督微调阶段消除混淆因子时,他们指的是什么样的混淆因子。]

回应:

我们已经删除了这个句子以防止潜在的误解。我们的目标是直接从基础模型执行强化学习(RL),而不纳入监督微调(SFT)阶段。我们的基本假设是SFT过程可能对模型的固有推理模式施加约束。通过允许模型通过RL探索和优化其自己的推理轨迹,我们旨在更好地利用其复杂推理的全部能力和潜力。

评论3:

[在第3节中,第二段应该解释”人类友好的冷启动数据”的含义。]

回应:

创建”人类友好的冷启动数据”的动机在附录B.3.2中有详细讨论。这一举措主要由产品层面的考虑驱动。我们的设计理念偏向于一种推理范式,它始于对问题的透彻理解,然后进行系统性、反思性和可验证的分析。为了更好地模拟自然的人类认知过程,我们在整个推理过程中采用第一人称叙述。

虽然这种预定义格式可能不是机器消费的最佳选择,但我们认为这是使机器推理与人类可解释性对齐的必要步骤。我们将探索直接使用原始强化学习(RL)思维链(Chain-of-Thought, CoT)模式作为未来工作,如附录G中所讨论的。

评论4:

[当讨论DeepSeek-R1-Zero有时产生中英文交替生成的问题时,论文假设读者知道DeepSeek V3基础模型是在中英文混合数据上训练的。这应该明确说明。]

回应:

在附录A.1中,我们提供了DeepSeek V3 Base的简要介绍,并明确指出DeepSeek-R1-Zero偶尔产生中英文交替生成可能是由于V3训练数据以及在指令调优阶段缺乏有针对性的语言对齐。

评论5:

[我认为如果Nature论文也为GRPO方法提供认可并向读者介绍这种方法,会大大增强论文的价值。如果GRPO对新模型的成功至关重要,那么应该更详细地描述它(也就是说,应该在主体中添加A1.1的高级版本)。更一般地说,作者不应该假设读者]

[理解强化学习和监督学习之间的差异,什么是]

[“传统监督微调”的样子,以及为什么相比SFT,RL对”人工标注工作的依赖最小”。引言部分可以通过扩展以]

[包含更多预备知识而受益。]

回应:

  1. [为了提高GRPO的清晰度,我们在稿件正文中包含了高层次的介绍。此外,我们在附录A.3中提供了更广泛的比较] [和实现细节。来自未发表的] [arXiv手稿的相关内容也被纳入其中,以提供关于GRPO更全面的] [背景,确保提交的内容是自包含的,并且对] [更广泛的受众是可访问的。]

  2. [我们已经扩展了附录A.2,以包含关于后训练方法论的额外背景。特别是,我们澄清了传统监督] [微调(SFT)的特征,强调了其对手动标注数据的依赖。相比之下,我们] [阐明了强化学习(RL)方法,如GRPO,通常] [需要最少的人工注释,从而在后训练对齐中提供更大的可扩展性和效率。]

评论6:

[从阅读论文中尚不清楚第4节描述的蒸馏技术是否是一个新颖的贡献。是否有其他先前的工作使用来自已经训练具有这些技能的更强LLM的生成数据集对预训练LLM进行微调,以具有指令跟随/推理能力?如果是这样,本节应该描述这些先前的工作并解释DeepSeek-R1蒸馏采用的方法有何不同。如果不是,本节应该更清楚地表明这种类型的蒸馏是一个新颖的贡献。]

回应:

蒸馏技术不是这项工作的新颖贡献。我们在第4节中添加了澄清。

评论7:

[我想知道作者如何设计DeepSeek R1的后训练流水线(图2)。为什么有必要将训练分为SFT+RL两个阶段?虽然我意识到这个决定在行业LLM中并不独特(例如,Llama做了类似的事情),但对于读者来说,了解决定多轮后训练背后的动机仍然是有用的。]

回应:

我们在附录E.1中添加了多轮SFT/RL训练动机的讨论,希望读者能获得见解。

评论8:

[然而,图3和表3将受益于解释性能差异的统计显著性。例如,在图3中,AIME 2024中前两个柱状图之间的性能差异是否具有统计显著性?]

回应:

在图3和表3中,这些数字具有统计显著性。

评论9:

[第6节声称”奖励信号与多样化数据分布的整合使我们能够开发一个不仅在推理方面表现出色,而且优先考虑有用性和无害性的模型。“然而,没有显示实验结果来支持关于”有用性和无害性”的声明。所有实验结果都是关于推理任务的。]

回应:

为了促进模型安全性的全面评估,我们包含了附录D.3,该附录展示了超过十个不同测试集的评估。此附录提供了R1在广泛潜在风险场景中安全概况的彻底分析。关于有用性,我们澄清表D4中报告的基准测试并非严格限于推理任务。例如,MMLU*主要评估社会科学和历史等学科的事实知识。DROP和FRAMES等数据集关注长上下文理解,而IF-Eval旨在评估指令跟随能力。此外,AlpacaEval 2.0作为一个包含多个维度的广泛基准测试,包括写作熟练度和开放式问答,这些共同促进了推理性能。

审稿人#2

评论1:

在第4节(第7页)中,作者声称他们”使用DeepSeek-R1策划的800k样本对Qwen和Llama等开源模型进行了微调,详见附录A.4”。然而,从附录A.4和图2中不清楚用于蒸馏的数据是从R1、R1-Zero、DeepSeek-V3采样的,还是三者的混合。请澄清。

回应:

我们采用相同的800,000个数据实例集进行蒸馏,详见第B.3.3节。在这种设置中,推理数据由R1-Dev2模型生成,而非推理数据来源于DeepSeek-V3 SFT数据集。这种区别在稿件的修订版本中已明确澄清。

评论2:

[我们希望看到一个详细说明的数据集统计表:]

[- 每个STEM领域(物理、化学、生物)使用多少提示] [- 代码数据中包含哪些编程语言以及各自的比例] [- 四个类别(数学、编码、STEM和逻辑)的平均输入标记数是多少] [- 希望看到是否每个提示都有用于验证的值输出的描述。例如,数学证明是否被排除?] [- 代码问题如何验证?是通过测试用例(成功率)还是其他方式?奖励是二进制的,还是与通过的测试用例比例相关?]

回应:

感谢您的建议。我们提供了一个表格(表B1),总结了每种数据类型的提示总数、问题类型和值输出类型。

此外,我们还提供了更详细的描述——比如每个STEM领域(物理、化学、生物)使用的提示数量、代码数据中的编程语言及其比例、平均输入token数,以及每种数据类型输出的评估方法——详见附录B.3.1节。

评论3:

[DeepSeek-R1冷启动(第12页)作者声称”我们构建了少量长CoT数据”。这些数据是如何收集的,“少量”是什么意思?]

回应:

我们首先让人工标注员将推理轨迹转换为更自然的人类对话风格。然后将修改后的数据对作为示例,提示大型语言模型(LLM)以类似风格重写额外的数据。所有LLM生成的输出随后都经过第二轮人工验证,以确保质量和一致性,详见B3.2。“少量”是指”数千个”,详见B3.2。

评论4:

[包含DeepSeek-V3用于”优化推理和摘要以确保适当格式和人性化表达”的提示会很有帮助。]

回应:

感谢您的建议,我们在B3.2中提供了详细信息。使用拒绝采样的DeepSeek-R1-Zero轨迹的主要问题是语言混合。为了解决这个问题,我们指示DeepSeek-V3”将思考过程翻译成与问题相同的语言”。此外,由于DeepSeek-R1-Zero的摘要只提供最终答案,我们使用B3.2中的摘要提示让DeepSeek-V3产生简洁、人类可读的解决方案,概述推理步骤和最终结果。

评论5:

[作者声称对于”代码数据,我们收集了大量竞技编程问题”。请定义”大量”是多少以及来源。分享用于生成测试用例的提示会很有帮助。

“实际提交”来过滤测试用例是什么意思?是指通过测试用例验证的模型输出还是通过CodeForces等平台?请澄清。包含用于增强推理的提示会很有帮助。]

回应:

我们在附录B.3.2中提供了代码数据的详细信息。

评论6:

[推理数据(第12-13页)LLM评判员使用的提示是什么?]

回应:

我们在附录B的清单3中提供了LLM评判员的提示。

评论7:

[非推理数据(第13页):看到用于关键原则遵循的提示会很棒]

回应:

在附录B1.2中,我们给出了奖励模型使用的原则。

评论8:

[奖励建模 - 作者能否提供更多关于训练奖励模型所用数据的详细信息。]

回应:

奖励模型训练的详细信息在附录B.1.2中呈现。简而言之,我们遵循标准的人类反馈强化学习(RLHF)框架,其中响应根据其有用性和无害性进行排名。具体而言,我们使用大约66,000个实例来训练专注于有用性的奖励模型,以及102,000个实例用于安全导向的奖励模型。

评论9:

[在第1章引言中,作者声称”超过某些参数阈值后,扩展的回报显著递减”。请提供参考文献。]

回应:

我们在修订版中删除了这一声明,因为它可能涉及混淆和争议。

评论10:

[在引言中,他们说他们绕过了RL之前的传统SFT,但V3的预训练是否在冷却阶段包含SFT数据(这是现在常见的做法)]

回应:

不,在V3的预训练期间,我们没有在冷却阶段有意地纳入监督微调(SFT)数据。然而,经过更仔细的检查,我们观察到预训练语料库包含其他大型语言模型(LLM)生成的合成数据,主要是OpenAI开发的模型。虽然这种类型的数据没有被明确引入,但它似乎以间接方式存在于整个预训练过程中。

评论11:

[定义pass@1如何估算会很好]

回应:

在附录D.1的基线部分,我们提供了估算pass@1所采用方法的详细描述。

评论12:

[第4页,“self-consistency technical” → “self-consistency decoding”]

回应:

已修复

评论13:

[对于蒸馏模型,为什么除了Llama 70B使用指令模型外,其他都使用基础模型?如果是这样,为什么在这种情况下选择指令模型?]

回应:

我们的目标是在LLaMA模型系列中识别最合适的检查点。为此,我们评估了几种配置,包括LLaMA 70B Base、LLaMA 3.1 70B Instruct和LLaMA 3.3 70B Instruct。其中,LLaMA 3.3 70B Instruct模型表现出最佳的整体性能。对于Qwen系列的模型,我们观察到基础版本和指令调优版本都达到了可比较的结果。

评论14:

[对于GRPO,没有解释使用的迭代次数/消融(即使用[9]中的µ值是多少)。请澄清]

回应:

在我们的研究中µ=1。

评论15:

[关于奖励模型的更多信息会很好。什么规模、什么类型的数据、超参数等。]

回应:

模型规模、奖励模型训练数据以及超参数都在B.1.2中列出。

评论16:

【对于pass@1,作者说他们根据评估情况使用每个提示4到64个样本。为了可重复性,最好知道每个评估中使用的确切N值。】

回复:

我们对AIME和GPQA数据集设置k=64,对MATH、CNMO和CodeForces设置k=16,对LCB设置k=8。这些选择的详细解释在附录D.1中提供。

评论17:

【在第3节第二段”DeepSeek-R1的流水线如图2所示。在初始阶段,我们为DeepSeek-R1收集了数千条冷启动数据”。我们的理解是冷启动数据是从DeepSeek-R1-Zero中采样的。请澄清。】

回复:

DeepSeek-R1-Zero的输出相对正式,不符合对话风格。为了解决这个问题,我们基于R1-Zero的输出进行了额外修改,结合人工努力和LLM的协助来增强自然性。具体来说,我们首先让人工标注员将推理轨迹转换为更自然、更能反映人类对话的对话格式。然后使用这些修订后的数据对作为示例,提示大型语言模型(LLM)以类似风格重写额外样本。LLM生成的所有输出随后都经过第二轮人工验证,以确保风格一致性和整体质量。我们在附录B3.2中强调了我们的动机和操作。

评论18:

【请在修订版本中考虑以下参考文献(请参见上面的内容了解背景)。 [1] A Study on Improving Reasoning in Language Models. https://openreview.net/forum?id=tCZFmDyPFm [2] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models. https://arxiv.org/abs/2312.06585 [3] Training language models to follow instructions with human feedback. https://arxiv.org/abs/2203.02155 [4] Llama 2: Open Foundation and Fine-Tuned Chat Models. https://arxiv.org/abs/2307.09288 [5] TinyZero. https://github.com/Jiayi-Pan/TinyZero [6] There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study. https://oatllm.notion.site/oat-zero [7] Open R1. https://github.com/huggingface/open-r1 [8] OpenThinker. https://www.open-thoughts.ai/blog/scale】

回复:

我们已在修订版中添加了相关参考文献。

评论19:

【对于所有图表 - 请增加所有图的字体大小/比例,使其更易于访问。】

回复:

好的,我们将在最终版本中增加字体大小。

评论20:

【图1 - 子图b。在大约8.2k步时观察到性能大幅提升,这是否对应于配置变化,如最大序列长度、批次大小或其他超参数配置?】

回复:

我们将最大序列长度从32k更改为64k,这在B4.1中进一步澄清。

评论21:

【图1 - 子图b,如果有数据,是否可以包含最小/最大响应长度?】

回复:

感谢您的建议。不幸的是,我们在训练期间只跟踪平均响应长度,因此无法提供最小/最大长度。我们真诚感谢您的理解。

评论22:

【图2:这个图和文本部分暗示在RL阶段之前需要对CoT / SFT进行冷启动训练,但摘要声称您”提出了一个仅通过大规模RL训练而不依赖监督微调的新颖框架”,请澄清。】

回复:

我们直接从基础模型训练DeepSeek-R1-Zero,省略了监督微调(SFT)。“提出了一个仅通过大规模RL训练而不依赖监督微调的新颖框架”这个表述旨在突出DeepSeek-R1-Zero的贡献。DeepSeek-R1引入SFT阶段是为了增强用户可读性。本文的核心科学贡献是R1-Zero,它代表了首次明确展示纯强化学习方法在预训练大型语言模型(LLMs)上的成功应用,这些模型有足够能力从思维链(CoT)推理中受益。

评论23:

【图2:这个图暗示有另一个模型”R1-dev”,但我们认为作者在这里指的是”R1-zero”?】

回复:

不,“R1-dev”与”R1-zero”不同。它指的是用冷启动SFT数据初始化并使用GRPO训练的模型,具有格式、准确性和语言一致性奖励。

评论24:

【图3 - 虽然AIME24和Codeforces基准都显示R1-Zero和R1之间性能有所提升,但在GPQA diamond基准上性能有所下降,作者能否对此提供见解。这是否与对数学和代码使用验证器以及对不可验证领域使用较弱奖励模型有关?】

回复:

GPQA上的性能下降不太可能与验证器使用有关,因为GPQA属于可验证领域。相反,我们怀疑下降源于SFT数据——具体来说,其有限的多样性可能限制了模型的泛化能力。此外,当我们选择超参数时,AIME和LCB的性能是开发集。

评论25:

【总体而言,摘要清晰易懂。然而,作者提出的一些声明需要澄清。例如,作者声称他们”提出了一个仅通过大规模强化学习训练而不依赖

[监督微调”,但最终在RL步骤之前使用冷启动思维链数据进行SFT。如果能明确说明R1-Zero和R1训练之间的区别,将有助于提高可读性。]

[引言和结论的文本很清晰。我们唯一的建议是提供一些关于未来研究潜在方向的结语。]

[回应:]

[在修订版本中,附录G概述了推理模型未来工作的潜在方向,包括奖励欺骗(reward hacking)和工具使用集成等挑战。]

[审稿人#3]

[评论1:]

[[[将中间标记拟人化为”推理轨迹”]] 在我看来,这篇论文存在过度拟人化的问题——过分关注R1中间标记的”类人”特性。鉴于所有评估都只针对最终答案而非中间标记(即”推理轨迹”),对中间标记的关注似乎是错位和误导性的。实际上,R1-zero和R1之间的变化似乎主要是让中间标记模仿类人自言自语的风格。从未真正明确R1的自言自语——虽然可能更”可读”——在语义上是否比R1-zero的更连贯——除了R1坚持”英语”这一事实。(毕竟,许多类型的虚假推理过程——包括蒙提·派森逻辑——都是完全”可读的”但没有语义)。]

[鉴于在R1-zero或R1中都没有先验保证(就像在o1/o3模型中没有一样)解决方案是正确的,关注推理轨迹的”类人特性”实际上可能导致对最终解决方案的不当信任。]

[我强烈敦促作者修订写作,减少这种拟人化。]

[回应:]

[我们在修订版本中删除了与”拟人化”相关的表达。在附录B 3.2中,我们描述了这些改进背后的动机主要是产品驱动的,强烈强调增强用户体验。当推理过程与类人思维模式一致时,用户往往觉得响应更直观和引人入胜。此外,保持语言一致性对于最佳用户体验至关重要。如果没有适当的控制,无论查询中使用什么语言,模型响应可能包含不同语言的混合。这种不一致性可能会干扰理解并降低用户满意度。因此,需要仔细改进以确保响应保持连贯并符合用户期望。]

[然而,我们承认R1-Zero的原始CoT可能具有超越人类先验的更大潜力。我们将探索利用原始CoT留给未来。]

[评论2:]

[[[RL vs. 基础模型]] 虽然我理解作者将RL视为R1强度的重要来源,但不清楚R1是否真的被用来开发”推理轨迹”/中间标记。我仔细阅读后发现:(1)基础模型已经具备在最终解决方案之前生成中间标记的能力。(2)RL阶段基本上是在备选的中间标记-最终解决方案对之间进行选择(使用外部验证器),并使用策略梯度(policy gradient)将基础LLM偏向这些对(有效地提升似乎导致正确解决方案的中间标记)。如果是这样,那么RL和SFT方法之间的区别可能不像论文所描述的那样鲜明。特别是,迭代SFT方法可能与RL很有竞争力。蒸馏结果已经暗示了这一点。论文更清楚地阐明这一点会很有用。[考虑到已有过高估RL作用的先例——如RLHF/DPO的情况,这一点尤为重要。]]

[回应:]

[虽然基础模型可以生成中间推理标记,但我们的证据表明RL是R1强度的重要来源,并帮助R1开发有效的推理轨迹。首先,基础模型很少能持续采样长的思维链推理轨迹,这种能力在RL训练后变得突出。其次,观察到的模式突变——在图C7(b)中表现为频率峰值——表明RL积极开发和改进推理轨迹。]

[此外,迭代SFT可以被视为简化的RL算法。与迭代SFT相比,GRPO包含了迭代SFT缺乏的关键组件:裁剪操作、KL约束、正负样本的利用和奖励基线。这些元素增强了训练稳定性和效率。我们在GSM8K上使用1B模型的实验(如下图所示)表明,迭代SFT优于标准SFT,突出了迭代学习的有效性。此外,GRPO超越了迭代SFT,验证了GRPO的卓越性能。]

[评论3:]

[[[预训练基础模型中”推理轨迹”数据的数量:]] 论文通过说R1在RL之前的SFT阶段使用外部推理轨迹数据而R1-Zero不使用来区分R1-Zero和R1。但这有点误导,因为它让人看起来R1的基础模型从未接触过推理轨迹数据。如果真是这样,基础模型首先就不可能生成以解决方案猜测结尾的备选轨迹。RL或SFT阶段能够工作的事实似乎至少部分归因于基础模型已经在足够的推理轨迹数据上训练过,能够]

[生成合理的备选方案供强化学习选择。如果论文能尽可能清楚地解决这个问题就太好了。显然,解决这个问题的最佳方式是对基础模型训练所用的训练数据更加坦诚。我意识到大型公司中没有一家这样做(除了AI2及其OLMO系列模型)。当然,DeepSeek可以比目前更透明地公开预训练数据——特别是这将有助于更好地理解R1优势的来源。]

回应:

我们承认基础模型已在足够数量的推理轨迹数据上进行训练,使其能够生成合理的备选方案供强化学习(RL)有效选择。对于DeepSeek-V3-Base的训练数据,我们仅使用纯网页和电子书,不包含任何合成数据。这表明仅凭公开可用的数据就足以训练R1-zero模型。我们已在附录A.1中包含此讨论。我们还在附录E中分享了失败案例,说明小型检查点可能无法适用于从基础模型进行RL的实验。

先前研究中观察到了类似趋势(例如,https://github.com/sail-sg/understand-r1-zero/blob/main/understand-r1-zero.pdf),这些研究分析了从基础模型重现类RL行为的可重复性。具体而言,Qwen系列模型展示了直接从基础模型重现类RL推理行为的能力,而LLAMA需要在数学数据上进行额外的持续训练阶段才能达到类似结果。这些发现进一步强化了这样的观点:预训练数据的可用性和性质在决定模型是否能在RL微调之前自然展现推理能力方面起着关键作用。

评论4:

[[验证器的重要性] 我越想越觉得,R1真正的力量源泉似乎不是RL与SFT的对比,而是验证器关于哪些备选解决方案确实正确的强信号。这在训练阶段和后续蒸馏阶段都有帮助。R1合成数据几乎完全依赖于具有外部可靠验证器的数学和编程问题这一事实,似乎为此提供了可信度。在论文中更突出地解决这个问题会很有帮助。]

回应:

我们承认验证器在我们框架中的关键作用,并在附录E.1中强调了它们的重要性。具体而言,在”验证器的重要性”段落中,我们强调R1-Zero的成功很大程度上取决于奖励信号的可靠性。我们的发现表明,基于规则的奖励模型(RM)和利用大型语言模型(LLM)评估生成答案对给定标准答案正确性是缓解奖励黑客攻击的有效策略。这些方法增强了奖励信号的稳健性,从而提高了模型的整体性能和可靠性。

评论5:

[[测试时计算] 我不确定是否认同R1进行测试时计算的说法——它似乎确实没有进行任何适应问题复杂性的测试时计算。据我从论文了解,R1在推理时的行为就像普通LLM——基本上输出中间标记直到输出中间标记结束,然后切换到输出解决方案标记。作者自己也声明R1与从中蒸馏的标准LLM无法区分。中间标记长度变化的事实与标准LLM中输出长度基于提示变化的事实没有不同。在我看来,对R1使用测试时计算术语会不必要地混淆概念(特别是考虑到作者确实实验了真正的自适应测试时计算策略,如附录中描述的MCT)。我鼓励作者考虑修改写作,使R1在推理阶段仅仅是LLM这一事实变得清晰。]

回应:

R1确实是一个LLM,但不是应用传统测试时计算扩展方法(如多数投票或MCTS)的系统。然而,R1确实以不同的方式扩展测试时计算,这使其与普通非推理模型显著不同且更加强大。R1通过在最终确定解决方案之前生成数千个思考标记来扩展测试时计算,而非推理模型直接生成简短的最终解决方案(在数学问题上通常长度仅为数百个标记),没有中间思考步骤。R1还根据问题复杂性自适应分配测试时计算:在更复杂的问题上,它倾向于思考更长时间。我们在附录D.5中名为”测试时扩展”的段落中明确了这些要点。

评论6:

[[大型模型上的蒸馏:] 论文的蒸馏结果未回答的一个问题是,如果不是将R1蒸馏到较小的LLM上,而是通过蒸馏R1的解决方案(包含中间标记)来训练R1的原始基础模型本身,会发生什么。这将提供有价值的信息,说明RL部分是否真的在做比基本上成为在R1的基础LLM已具备产生能力的备选轨迹中进行选择更重要的事情。]

回应:

  1. 将R1蒸馏到其原始基础模型:

  2. [在附录D4中,我们展示了R1中间检查点的性能。]

值得注意的是,DeepSeek-R1-Dev3可以看作是R1原始基础模型的一个近似,通过蒸馏R1的解决方案进行训练。这是因为其他检查点,如Qwen和Llama,都是在相同的80万数据上训练的。结果表明,DeepSeek-R1-Dev3在推理基准测试上的表现与DeepSeek-R1相当。然而,这并不意味着强化学习(RL)在训练流水线中不重要。没有强化学习,这样的监督微调(SFT)轨迹首先就不会被发现,这突出了强化学习在生成高质量推理轨迹中的必要性。

3. 监督微调(SFT)与强化学习(RL):

4. 虽然通过SFT进行蒸馏可能导致略逊于RL训练模型的性能,或在某些情况下性能相当,但RL仍然是必要的。这是因为RL促进了大型语言模型(LLMs)在解决复杂问题时发现最优推理轨迹——这是仅通过人类推理轨迹数据无法完全实现的。没有RL,思维链(CoT)范式中的长链推理轨迹不会出现。然而,一旦获得了这样的长CoT数据,通过SFT进行蒸馏对较弱的模型证明是有效的,随后的RL阶段只能带来边际改进。这突出了RL和SFT在增强模型性能方面的互补作用。我们在附录E中添加了多轮RL/SFT的动机。

评审员#6

评论1: [关于数据的更多细节:来源、说明性示例、对数据的完全访问或样本。任何有助于理解相关数据对结果的重要性的内容。]

回应:在手稿的修订版本中,我们纳入了以下改进:

• 我们提供了强化学习(RL)和监督微调(SFT)数据集的全面描述,以促进对评审员1关切的数据基础的更深入理解。请参考附录B3.1、B3.2和B3.3获取详细信息。

• 为了促进透明度和鼓励进一步研究,我们公开发布了SFT数据集的一个子集,包含一千个标注示例。该数据集作为附件包含在内。

• 此外,我们在附录B3.3中包含了说明性示例,以提供对训练数据的性质、结构和多样性的具体见解。

评论2: [污染分析:对污染的全面分析,包括原始v3模型中使用的基准测试和类似材料,在RL过程中,以及在达到评估部分之前的所有其他中间步骤。此外,使用一些新的基准测试和/或估计结果和思维链中污染的比例。]

回应:我们在附录D.1中纳入了额外的去污染部分。我们采用基于n-gram的技术来减轻潜在的基准测试污染,确保我们评估过程的完整性。此外,我们通过纳入R1发布后发布的数据集,如AIME 2025(附录D5现实世界竞赛的泛化),来扩展我们的评估,以评估模型在以前未见过的任务上的性能,从而增强我们结果的稳健性。

评论3: [- 能力的更好估计,超越平均值:按实例难度分解结果,OOD分析,至少使用按推理难度标注的基准测试提取推理能力。]

回应:为了增强对R1的评估,我们纳入了以下组件:

  1. 我们在附录D4中提供了R1在不同阶段的详细评估,包括对初始R1-Zero模型的分析。

  2. 在附录D5中,我们引入了分布外(OOD)分析,利用ARC作为测试集,该测试集既未包含在预训练中也未包含在监督微调(SFT)中,以评估泛化能力。我们通过纳入R1首次亮相后发布的考试,如AIME 2025,来扩展我们的评估,以评估模型处理未见过任务的能力。我们进一步通过将结果分解为数学和编程的不同类别和难度级别来分析性能,提供对模型优势和局限性的更全面理解。我们评估模型在MMLU和MMLU-Pro的每个类别上的性能,并将其与DeepSeek-V3进行比较。

  3. 对于R1-Zero,我们专门评估训练过程中不同难度级别的性能,如附录C.1所示,提供对模型在其开发过程中如何演变的见解。

评论3: [- 关于中间点结果的更多细节,不仅是关于R1-Zero的RL曲线,特别是R1每个阶段的事物如何演变。]

回应:为了解决这个问题,我们添加了附录D.4,其中我们提出了一个评估不同训练阶段性能的消融研究。在这里,我们将DeepSeek-R1与R1-Zero以及其他三个中间检查点进行比较。

评论4: [- 应该包含一个适当的相关工作部分,特别是涵盖AI中对推理的追求和已包含的技术,除了更好地覆盖CoT和相关技术。这可以包括受R1强烈影响的”跟随者”论文(https://arxiv.org/pdf/2502.14768),以及他们的发现如何可能挑战

[本文发现的一些趋势。]

回复:

我们添加了相关工作部分,以提供更全面的先前研究讨论。该部分涵盖了推理时计算扩展和推理强化学习的关键发展,以及思维链(Chain-of-Thought, CoT)提示和相关技术的相关工作。

评论5:

[- 枚举局限性、挑战和未来工作的低垂果实,考虑到这些模型所代表的可访问性增加。]

回复:

我们在附录G中添加了局限性讨论。

评论6:

[- 更多扩展定律分析,而不仅仅是推理时间的扩展定律(图1)。例如,我们希望看到扩展定律研究(如Llama 3论文,图3),该研究发现了”最优模型大小”。同样,除了推理的扩展定律,我们也希望看到蒸馏的扩展定律,遵循以下方法论或与之比较:Busbridge, D., Shidani, A., Weers, F., Ramapuram, J., Littwin, E., & Webb, R. (2025). Distillation Scaling Laws. arXiv preprint arXiv:2502.08606.]

回复:

感谢您的建议!我们同意进一步的扩展定律分析将非常有价值。然而,由于我们有限的GPU资源,我们目前无法在如此多的扩展设置中运行额外的实验。因此,我们目前无法进行类似Llama 3论文或蒸馏扩展定律的扩展研究。我们希望在未来进一步探索这些方向!

评论7:

[- 更多关于成本的信息。我们读到强化学习训练产生”高需求”。这应该用时间和计算的实际数据明确说明,包括所使用硬件的规格,包括强化学习和R1-zero、R1、蒸馏等所有阶段的成本。在DeepSeek v3论文中有一些信息,但这里没有包含。]

回复:

我们添加了附录B.4.7节来讨论强化学习训练的成本,其所需的GPU小时数少于预训练。

评论8:

[- 安全性:这是必须解决的最重要的事情。我们希望看到模型卡,涵盖公平性等方面,还有对攻击的脆弱性、红队测试、风险级别等。我们也希望看到对使用这项技术的担忧的讨论,特别是因为模型已经开源提供。

评估这些模型的能力、可用性和安全性是该领域领导者的道德责任,DeepSeek似乎将自己定位在这个空间中,所以责任很重。在存储库论文中,作者说:“我们将探索更全面和多维的模型评估方法,以防止在研究中向优化固定基准集的趋势”。我们希望在这篇论文中包含一些这样的探索。]

回复:

我们纳入了专门评估模型安全性的广泛部分。更多详情请参阅附录D.3。在这一部分中,我们首先使用公开可用的安全基准评估我们模型的安全性能。结果表明,虽然我们的模型在相对简单的基准上表现良好,但与西方模型相比,在更具挑战性的安全评估中表现略低。然而,我们部署在网络和应用平台上的内部过滤系统有效地减轻了不安全的响应。

此外,我们调查了模型的鲁棒性及其对潜在风险知识的处理。我们的发现表明,具有推理能力的模型,如DeepSeek-R1,与缺乏明确推理能力的模型相比,倾向于暴露更多潜在敏感或风险知识,尽管仅表现出对对抗性提示的中等敏感性。值得注意的是,思维链推理过程本身引入了更高的信息密度,这突出了模型透明性和安全考虑之间的根本张力。

评论9:

[- 作为上述所有建议更改的结果,我们也认为论文的结构应该显著修订,遵循Nature论文更经典的组织,在附录中分离动机、结果、方法和细节。]

回复:

感谢您宝贵的建议。我们将在最终提交前仔细完善手稿的结构、格式和引用风格,符合期刊的要求。

评论10:

[G. 参考文献:总的来说,包含了关键参考文献,但如果修订包含更多细节和相关工作部分,那么我们期望更好地覆盖先前工作,特别是在科学影响和整合AI中多样化技术范围方面。

对于涌现和扩展定律,引用了Wei等人2022a,但以下是关于此更值得注意的引用,因为它开始了这一切: - Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., … & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.

但推理扩展定律和蒸馏扩展定律也应该包含: - Busbridge, D., Shidani, A., Weers, F., Ramapuram, J., Littwin, E., & Webb, R. (2025). Distillation Scaling Laws. arXiv preprint arXiv:2502.08606.

应该更多地涵盖思维链方法,以及基准,特别是评估方法论。参考文献过于关注最近的论文]

[报告模型和结果,但在技术和方法论方面涉及不多]

[科学应该建立在此基础上,以及该领域的历史。]

回应:

(2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.

在引言中被引用

蒸馏

扩展定律。arXiv preprint arXiv:2502.08606.

在DeepSeek-R1蒸馏部分被引用

应该涵盖更多关于思维链方法的内容,

我们添加了相关工作部分并引用了CoT工作。

评论10:

[论文写得很好,非常易读,特别是主论文只专注于关键思想和主要结果,将细节留给附录。这是一个好的开始,但不符合常规科学论文的标准,我们期望看到更好的分析来解释为什么事情有效、相关工作,以及关于方法论、实现和结果的更多细节。]

回应:

在修订版本中,我们在正文中包含了专门的相关工作部分,为我们的研究提供更清晰的上下文框架。关于GRPO方法的其他细节已纳入附录A.3。此外,我们现在在附录C中展示了R1-Zero在强化学习(RL)训练过程中的演化分析。

为了增强我们发现的可重现性和透明度,我们扩展了附录B,包含了关于监督微调(SFT)和RL数据集的更全面信息。最后,我们显著扩展了附录D.4中实验结果的分析,以提供对其含义的更深入见解。

评论11:

[摘要:

应避免使用”高级智能”等术语。

第1节。

作者提到”从数学问题解决到逻辑推演和编程的复杂认知任务”,但”逻辑推演”不是一个任务,而是一个过程甚至一种能力。它与数学问题解决和编程不在同一层面。

类似地:“更广泛地获取智能”。最好改写为”更广泛地获取强大的人工智能”。]

回应:

我们在修订版本中修复了这些问题。

评论12:

[第2节

大多数细节都参考了附录,但解释AIME(美国邀请数学考试数据集),作为基准之一,表明它们以数学问题作为输入,以数字作为输出,这将有助于解释图1,特别是在解释起始精度约0.15-0.25、人类基线和”基于规则的奖励系统来计算准确性”的解释。许多读者可能不知道什么是思维链。因此,展示一个例子、关于所使用基准的更多细节等,将有助于论文的可访问性。]

回应:

我们在附录中添加了AIME的解释,包括评估指标和问题示例,并将主文章链接到附录。

评论13:

[在图1中,“人类专家”是什么?]

回应:

人类专家是参与者。我们在图1的标题中添加了这一点。

评论14:

[表2中的例子是从AIME中提取的吗?]

回应:

不,这是训练数据集中的一个提示。

评论15:

[避免使用”令人印象深刻”等词语——探索更具体和科学精确的替代词语。]

回应:

谢谢,我们在修订版本中修复了这个问题。

评论16:

[这一部分甚至没有提到基础模型是什么。引言说”我们基于DeepSeek-V3-Base构建”,然后下一次命名是在第6页的图2中,但有两个模型,DeepSeek v3 Base和DeepSeek V3(标准版?),所以我们不知道哪一个用于R1-Zero以及为什么。应该提供关于此模型的完整细节或包含简短摘要以及提供所有这些信息的来源链接。V3论文在引言中被引用,但我们需要关于这些模型的更多细节,包括它们的局限性,因为这可能解释为什么这里介绍的一些技术有效或可能对其他大型模型无效。]

回应:

我们在附录A.1中包含了DeepSeek-V3-Base的简洁摘要,在那里我们也提供了DeepSeek-V3-Base和DeepSeek-V3之间区别的详细说明。

评论17:

[第4页包含:“使用自一致性(Wang et al, 2022)技术,模型性能可以进一步提升到86.7%”。这个句子在语法上不正确,cons@16指标需要被描述。这是16次运行的多数结果吗?在图1和文本中添加解释。即使它在附录中,也只需要一句话来说明pass@1是k次重复一个项目的平均性能(因为使用了温度),cons@16是这k次重复的多数结果。]

回应:

我们在附录中添加了cons@16的定义,它被定义为16次运行中的多数投票。

评论18:

[作者说有”复杂行为的自发出现”。但同样,不清楚这其中有多少已经存在于Deepseek v.3.0中。我们知道性能提高了,但说”复杂”行为出现是另一回事。复杂性据说包括”反思推理(reflective reasoning)“和”探索替代解决方案(exploration of alternative solutions)“。有多少]

在这两种行为中,带有CoT提示的Deepseek v.3.0能够达到什么效果?事实上,在表B2中,作者似乎使用了0-shot提示而不是CoT。这使得这些模型与推理模型之间的比较不公平。带有CoT的Deepseek的潜力应该是起点,特别是对于Zero版本,以及在冷启动后这种情况如何变化等等。

“顿悟”示例确实很好,但如果没有进一步的数据,我们无法从中概括并说它”开始表现出反思性、拟人化的语调,暗示更深层次的认知处理”。测量的是性能而不是能力,所以这无法得知。要确定真正的能力,我们需要针对元认知、抽象等方面的单独评估维度,以及难度级别,才能真正讨论诸如”更深层次的认知处理”之类的事情。

回应:

我们在附录C.2中讨论了训练期间的行为变化。具体来说,我们分析了代表性反思词汇的出现,包括”wait”、“mistake”、“however”、“but”、“retry”、“error”、“verify”、“wrong”、“evaluate”和”check”。如图C5所示,随着训练的进行,这些反思行为的频率逐渐增加。这种趋势表明,随着模型接受进一步训练,它越来越多地将验证和自我纠正纳入其推理过程中。此外,图C5还显示了训练步骤中相应的准确性改进。

评论19:

第3节

本节提到了一些基准测试,但在图3或文本中再次没有明确指定人类基线。对于AIME:“已经超过了大多数对数学充满热情的高中生”。这是人类基线吗?对于Codeforces,“DeepSeek-R1取得了显著成果,超过了96.3%的人类竞争者”。这些竞争者是谁?分布情况如何?然后,“对于GPQA,人类专家是博士级别的个人,在回答问题时可以访问网络,人类表现出比DeepSeek-R1更好的性能”。人类基线无法比较,因此在手稿的其他部分概括为”人类级别”或”专家级别”是不准确的。

回应:

AIME和Codeforces的专家是竞赛参与者;然而,我们没有关于这些个人的额外人口统计或背景信息。对于GPQA基准测试,人类专家是博士级别的个人,在回答问题时被允许访问在线资源。为了提高清晰度,我们已经移除了”人类专家”一词,而是在结果部分提供了对人类参与者更精确的描述。此外,我们在图3的标题中包含了这一说明。

评论20:

第4节

本节非常简短,由于蒸馏是一个更标准的程序,但了解与基础模型和用于蒸馏的模型相比我们发现了什么样的限制仍然很有见解。我们想知道”子”模型在哪些能力方面更类似于一个或另一个”父”模型,以及规模如何影响这种蒸馏。

回应:

我们的工作主要关注在基础模型上扩展强化学习(RL),而不是改进蒸馏技术或建立模型蒸馏的扩展定律。因此,我们认为对更有效的学生模型和蒸馏策略的研究是未来研究的一个有价值的方向,我们将其留给更广泛的研究社区。在本研究中,蒸馏实验仅旨在说明通过我们的RL方法获得的教师模型的效用,而不是优化生成的学生模型的性能。

评论21:

本节并没有真正分析为什么结果是这样的。它更像是一个影响和意义部分,而不是在技术论文或AI科学最新技术背景下的科学贡献。没有讨论限制。

回应:

我们已将讨论部分移至附录E,并将其与不成功尝试的分析整合。在这个修订版本中,我们提出了对强化学习(RL)和监督微调(SFT)之间关系的观点,强调了它们在模型优化中的互补作用。此外,我们强调了结合验证器以增强模型生成响应的可靠性和鲁棒性的关键重要性。

评论22:

附录A. 数据

A.2.1关于有多少基准测试需要数字、是多项选择还是有其他挑战并不够清楚(A4.1对RL数据更具体一些,但表格和示例会更好)。作者提到了LeetCode,说其评估需要运行生成的代码。但本文其他地方没有提到LeetCode。本文中是否有其他基准测试需要运行代码?如果是,这如何影响RL过程的速度?图A1似乎包含一个”代码执行器”作为基于规则的奖励模块的一部分。据说”虽然这个模块不需要将模型加载到GPU内存中,但其执行往往是耗时的”,没有进一步的细节。

回应:

  1. 在附录H中,我们提供了每个基准测试评估程序的详细描述。

评论 23:

【准确性奖励和格式奖励如何合并为单一奖励?】

回应:

它们通过相同权重进行线性组合。我们在附录B1.1的方程B4中更新了详细信息。

评论 24:

【作者提到”我们观察到神经奖励模型在大规模强化学习过程中容易受到奖励黑客攻击”。应该更好地解释这一观察,论文应该为此提供证据。】

回应:

我们添加了图B4来展示奖励黑客攻击,其中奖励增加但性能下降。

评论 25:

【A.2.2:同样关于无害性的细节很少。文中说类似于他们在DeepSeek V3中所做的,但这应该详细解释。安全测试和风险缓解至关重要,应该详细解释。】

回应:

如上所述,我们为安全性添加了附录D.3。

评论 26:

【评论模型被称为”可选的”,但这应该澄清。我认为这意味着一些强化学习算法有评论模块而其他没有,所以在文本和图表中最好描述为”如果算法需要”或”如果需要”。但这也表明可能存在其他强化学习算法的结果,但没有报告。】

回应:

已修复,我们使用”如果需要”这个术语。

评论 27:

【A.4.1(强化学习数据)应该附带一个表格,包含数据集的所有细节,包括输出类型,以便更好地描述所使用的示例。】

回应:

我们在表B1中添加了强化学习数据描述。

评论 28:

【A.4.2(监督微调数据)这里有更多细节,但仍然远不足以确保可重现性。文中说简单数学问题使用少样本学习,并包含”反思和验证机制”。这再次需要作者对此含义的完整细节以及示例或结果。

推理数据也需要更多细节。这包括60万个推理示例,特别是使用”通过将真实答案和模型预测输入DeepSeek-V3进行判断的生成式奖励模型”

超参数选择部分是必需的,但由于缺少许多其他细节,还不足以实现可重现性。】

回应:

我们在B3.1、B3.2和B3.3节中提供了关于冷启动阶段和80万样本监督微调数据集所使用的监督微调(SFT)数据的额外细节。具体包括:

• 列表4展示了生成式奖励模型用于基于大语言模型判断的提示。

• 列表1说明了用于产生人类可读解决方案的提示。

• 此外,关于监督微调数据统计的段落概述了80万监督微调样本的分布,并报告了对话轮次和输出令牌平均数量等关键指标。

我们相信研究社区可以轻松收集质量和数量相当的数据,从而促进我们方法蒸馏组件的可重现性。

评论 29:

【附录B. 评估

这个附录只是列举了基准测试,添加了更多结果,但没有给出评估所需的细节,比如污染(哪个基准测试更精确地用于哪个阶段,基准测试之间的相似性等)。只报告了性能,但无法从这种方法中提取实际能力的指示,以及模型对新基准测试或新项目的行为表现,特别是如果它们与整个过程中使用的基准测试不同(分布外)。】

回应:

为了增强R1的评估,我们纳入了以下组件:

  1. 我们在附录D4中提供了R1在不同阶段的详细评估,包括对初始R1-Zero模型的分析。

  2. 在附录D5中,我们引入了分布外(OOD)分析,利用ARC作为测试集,该测试集既未包含在预训练中也未包含在监督微调(SFT)中,以评估泛化能力。我们通过纳入R1首次亮相后发布的考试(如AIME 2025)来扩展评估,以评估模型处理未见任务的能力。我们进一步通过将结果分解为数学和编程的不同类别和难度级别来分析性能,提供对模型优势和局限性的更全面理解。我们评估了模型在MMLU和MMLU-Pro各类别上的性能,并与DeepSeek-V3进行比较。

  3. 对于R1-Zero,我们专门评估了训练过程中不同难度级别的性能,如附录C.1所示,提供了对模型在整个开发过程中如何演进的洞察。

评论 30:

【我们看到AIME被用于评估,所以似乎与用于强化学习的数学数据集(26k问题)存在污染,该数据集包含数学考试问题和竞赛问题,如果这在预训练或监督微调中使用,可能污染更严重。我们简直不知道。AIME用于评估蒸馏模型。】

回应:

关于测试集,我们在所有阶段应用了基于n-gram的去污染技术

[预训练、监督微调(SFT)和强化学习(RL)数据集。]

评论31:

[看到MMLU每个类别的增益分解会很有用,也希望看看是否有任何类别出现退化。]

回应:

我们在附录D4中添加了MMLU每个类别的增益分解。

评论32:

[“标准基准测试”部分大部分都在评论结果,但并没有真正提供更多关于评估选择和污染特殊分析的信息。]

回应:

我们在附录H中添加了评估选择。

评论33:

[我们读到:“DeepSeek-R1在IF-Eval上也交付了令人印象深刻的结果”。再次避免使用”令人印象深刻”或类似词汇。]

回应:

我们在修订版本中删除了这些表达。

评论34:

[图B2和B3是截图。第一个缺少时间戳(据说是1月份的),可能是发布后不久(因此置信区间很宽)。无论如何,应该包含更多关于这些截图的解释以及截图的一些演变。]

回应:

我们已经为提供的截图添加了进一步的解释,澄清排行榜是实时更新的。

评论35:

[参考文献。

在许多情况下,引用的是论文的arxiv版本,而不是期刊/会议版本,例如,Wei J, Tay Y, Bommasani R, et al (2022a) Emergent abilities of large language models. arXiv preprint arXiv:220607682 发表在Transactions on Machine Learning Research (08/2022)]

回应:

我们将在最终发表前修复这个问题。

审查员#8

评论1:

[对于R1,该论文进行了SFT,然后是RL(然后是用于对齐的SFT)。RL之前的SFT用于避免模型在思维链(CoT)中切换语言。用于SFT的示例轨迹来源据说是”DeepSeek-R1-Zero的早期检查点来创建DeepSeek-R1的数据”。

您能否确认在管道的任何时点(包括V1训练中)都没有使用比正在训练的模型更强大的模型生成的轨迹?

如果模型在训练管道的任何时点都使用了来自更强大模型的数据进行训练,那么这项工作可以被解释为一种蒸馏形式,而不是对我们如何在没有其他大型模型可供蒸馏的情况下构建大型模型的理解做出贡献。]

回应:

我们理解模型蒸馏是DeepSeek模型开发中广泛讨论的话题。在预训练阶段,我们承认我们收集的网络数据可能包含由GPT-4等先进模型生成的内容。然而,考虑到互联网上合成内容的广泛存在,这在当前的大规模语言模型训练中很难避免。

但是,需要注意的是,DeepSeek-V3-Base没有采用涉及在合成数据集上进行大规模监督蒸馏的明确”冷却”阶段。相反,所有训练数据都来源于网络并反映了自然分布。因此,任何对合成内容的暴露都是偶然和间接的,反映了许多最先进语言模型采用的标准数据收集实践。此外,DeepSeek-V3-Base的预训练数据收集截止日期为2024年7月,当时还没有公开发布先进的推理模型。这进一步降低了从现有强大推理特定模型进行意外蒸馏的可能性。

重要的是,本文的核心贡献——R1-Zero——不涉及从先进模型进行任何蒸馏。RL组件是独立训练的,不依赖于GPT-4或其他类似能力模型的输出或指导。正如审查员6所指出的,R1-Zero是纯RL(使用去年引入的最新高效GRPO算法)应用于足够好的预训练LLM以从思维链(CoT)中受益的第一个明确成功案例(至少是公开的)。总共166k个问题和一个带有基于规则奖励(正确性和格式)的直接RL算法就足以将传统模型V3转变为更好的”推理”模型。

在我们看来,R1-Zero具有特殊的科学兴趣,因为它证明了强化学习(RL)可以在没有大量人工监督的情况下以端到端的方式有效应用。相比之下,R1模型代表了一个为实际部署和可用性优化的更精细版本。如表D9所示,R1和R1-Zero在以推理为中心的基准测试上达到了可比较的性能。此外,它们在完全未见的ARC-AGI-1测试集上的性能几乎相同(表D12),强调了纯粹基于规则的奖励函数以及166K训练实例足以开发强大的推理能力。从R1-Zero到R1,我们没有改进推理能力,而是提高了可用性。我们不需要额外的强大模型来教授DeepSeek-R1推理任务,因为R1-Zero在推理方面已经足够强大。在开发时,没有模型表现出明显优于R1-Zero的性能(o1在推理方面与R1-Zero相当,而o3/o3-mini没有公开)。为了进一步使模型输出与人类偏好保持一致并提高整体可用性,R1纳入了包括人工注释在内的额外训练数据,这些数据是在大型语言模型的协助下生成的。这里的动机主要是产品驱动的,

强调增强用户体验。当推理过程与类人思维模式对齐时(从R1-Zero到R1),用户往往发现回应更加直观和吸引人。

评论2:

【为了回答RL是否确实是此处性能的根本原因这一问题,请提供DeepSeek-R1-zero(即在RL之前没有SFT)在表B2所有任务上的完整性能数据。】

回应:

附录D4展示了R1-Zero的结果,以及中间检查点的性能。相应的定量结果在表D9中提供。如表所示,R1-Zero达到了与R1相当的性能。此外,监督微调(Supervised Fine-tuning, SFT)阶段对涉及指令遵循以及开放式写作和问答的任务贡献更为显著。

评论3:

【为了回答R1中RL之前的长CoT SFT是否可能是此处性能的原因这一问题,请提供R1在表B2所有任务上的消融实验,仅使用CoT SFT而不包含RL循环。】

回应:

表D9展示了不同训练阶段的性能。对于结果R1,最显著的性能提升出现在Dev1到Dev2阶段,主要由此阶段进行的大规模强化学习(Reinforcement Learning, RL)驱动。值得注意的是,当使用Dev2的中间检查点生成推理数据时,不同规模的模型——包括较小的架构和DeepSeek-V3-Base——都能够在基准测试上取得强劲性能。然而,如果管道中不应用RL阶段,我们无法获得Dev2检查点。

此外,我们在附录E.1中提供了关于多轮SFT/RL训练策略动机的详细讨论,旨在为读者提供更深入的见解。

评论4:

【为了回答V1是否在更先进模型的数据上训练这一问题,请为DeepSeek-zero提供替代基础模型(非V1)的消融实验,例如Llama基础模型(我指的不是你们在表A1中使用QWEN进行的蒸馏实验——我指的是图2,将”DeepSeek V3 Base”替换为Llama,并报告使用Llama基础模型在表B2任务上的性能)。】

回应:

我们在原始版本中进行了您建议的实验,结果在表D13中展示。具体而言,模型DeepSeek-R1-Zero-Qwen-32B使用强化学习(RL)从基础检查点训练,而不依赖监督微调(SFT)或蒸馏。在此实验中,我们将DeepSeek V3 Base替换为Qwen 2.5 32B,并在关键推理基准上评估模型。

我们认为Qwen和Llama都是具有相似架构的稠密模型,使用Qwen作为基础模型的方法的成功证明了我们方法的有效性。虽然我们承认使用Llama的直接实验可以提供额外的见解,但考虑到模型的相似性质,我们预期会有类似的趋势。

评论5:

【请提供标准安全基准的数据,以评估事后安全训练性能。】

回应:

我们加入了一个专门评估模型安全性的扩展章节。更多详情请参见附录D.3。在这一章节中,我们首先使用公开可用的安全基准评估我们模型的安全性能。结果表明,虽然我们的模型在相对简单的基准上表现良好,但与西方模型相比,在更具挑战性的安全评估上表现略低。然而,我们部署在网页和应用平台上的内部过滤系统有效地缓解了不安全的回应。

此外,我们调查了模型的鲁棒性及其对潜在风险知识的处理。我们的发现表明,具有推理能力的模型(如DeepSeek-R1)倾向于暴露更多潜在敏感或风险知识,相比缺乏明确推理能力的模型,尽管仅表现出对对抗性提示的中等易感性。值得注意的是,思维链推理过程本身引入了更高的信息密度,这突显了模型透明度与安全考虑之间的根本张力。

评论6:

【请提供附录A.4.2中使用的代码和SFT轨迹供审查员检查。】

回应:

我们在附录中添加了SFT轨迹的示例,详见附录B.3.2和B.3.3。此外,部分SFT数据已公开可用,如附录F中所述。

结语

我们相信修订后的手稿现在解决了审查员提出的关切。再次感谢您的时间和宝贵意见。我们希望当前版本符合Nature的发表标准。

此致敬意,

吴宇

通讯作者

DeepSeek AI

Nature逐点评论第二轮

审查员回应

手稿ID: [2025-02-03814]

标题: DeepSeek-R1: 通过强化学习激励大语言模型的推理能力

亲爱的编辑和审查员,

我们真诚感谢审查员的建设性反馈,这帮助我们显著改进了手稿。在修订版手稿中,我们添加了更全面的细节,特别是关于手稿格式和更多实验分析。下面,我们对每条评论提供逐点回应。所有修改在

[修订稿中的修改部分用黄色高亮标出][文本][(或修订追踪)。如果章节标题被]

[高亮标出,表示整个章节都是新增的。]

[审稿人 #1]

[评论 1:]

[我主要担心的是,他们把一些细节放在附录中]

[实际上应该在主文中突出显示,特别是关于奖励模型]

[以及评估R1在不同训练阶段表现的结果细节。我认为这两部分内容]

[比蒸馏结果更有趣,更应该包含在主文中,而作者]

[也承认蒸馏并不是这项工作的新颖贡献。]

[回应:]

[感谢您的建议。我们已将奖励模型的细节移至]

[方法补充材料中,这将在发表时包含在主PDF中。此外,不同训练阶段的评估结果已被]

[重新安排到论文主体中,以获得更好的清晰度和可读性。]

[评论 2:]

[然而,作者在讨论结果时应该诚实。除非他们能够]

[证明他们的模型对社会无害,否则不应该提出这种声明。]

[回应:]

[我们真诚地感谢这一反馈。我们已经彻底重新审查了安全评估中的比较]

[实验结果,并将结论修订为:]

["这些全面的安全分析得出结论,DeepSeek-R1模型的固有安全水平]

[相比其他最先进的模型,总体处于中等]

[水平(与GPT-4o (2024-05-13)相当)。此外,当与风险控制]

[系统结合时,模型的安全水平提升到了优秀标准。"]

[上述声明已在修订版的新"4. 伦理和安全声明"章节中更新。]

[评论 3:]

[我注意到最严重的问题出现在第4节第二段,需要仔细校对,但在其他一些新文本中]

[也有一些小的英语错误。]

[回应:]

[感谢您的宝贵反馈。我们已经仔细校对了修订稿,以]

[解决语言和清晰度问题,确保其符合学术写作标准。]

[审稿人 #2]

[评论 1:]

[第2页,请在"…当模型在后训练阶段学习高质量、多步骤推理轨迹时观察到"之后提供一些参考文献]

[回应:]

[我们在第2页添加了以下参考文献:]

[•] [[Nye, Maxwell, et al. "Show your work: Scratchpads for intermediate computation with ]]

[language models." (2021). https://arxiv.org/abs/2112.00114]

[•] [Chung, Hyung Won, et al. "Scaling instruction-finetuned language models." ][Journal ]

[of Machine Learning Research][ 25.70 (2024): 1-53. https://arxiv.org/abs/2210.11416]

[评论 2:]

[- 第3页,考虑将句子"We open source DeepSeek-R1-Zero…"替换为"We ]

[release DeepSeek-R1-Zero…"。术语"开源"在AI系统中存在很大争议,]

[通常需要比作者目前提供的更高透明度水平;]

[参见例如 ]

[https://opensource.org/ai/open-source-ai-definition][ 查看一个可能的定义。]

[回应:]

[我们已将声明改为"发布"而不是"开源"。]

[评论 3:]

[- 第16页,请澄清在奖励建模期间样本的最大序列长度,以及训练轮数。]

[回应:]

[我们在方法补充6.2.2,有用奖励模型部分提供了相关信息。]

[评论 4:]

[- 第32页,附录B.4.1:请澄清用于训练DeepSeek-R1-Zero的总步数]

[以及这是否对应提示数据集上的一个或多个训练轮次。]

[回应:]

[我们在第6.3.1节提供了相关信息。我们训练DeepSeek-R1-Zero 10,400]

[步,这对应1.6个训练轮次。]

[评论 5:]

[- 第63页,附录F:请在最终版本中包含SFT和RL数据的链接。据我们]

[了解,审稿过程中附加的数据只是SFT的样本。]

[回应:]

[我们已在数据可用性部分添加了链接。在最终版本中,我们向公众发布了1K]

[SFT和1K RL数据。]

[评论 6:]

[- 第1,2,19页:"exemplars"可以替换为"examples"]

[- 第18页,表B1:将"choice"替换为"multiple-choice"?在第18-19页的数据集描述中也是如此。]

[- 第20页,第二段:"In detailed, We…"应该是"In detail, we…"]

[回应:]

[我们已修正了这些错误。]

[评论 7:]

[感谢您更新图2并澄清中间的"R1-dev"模型。这个图]

[能否更新以包含R1-Zero训练、过滤和人工/LLM]

[修订的管道?我们认为这为R1训练管道的冷启动CoT步骤提供了输入。这个]

[图将显示从基础模型到R1的整个管道的全局视图。]

[回应:]

[感谢建议。我们已根据建议修改了图表。]

[审稿人 #3]

[评论 1:]

[我发现您对关于拟人化评论1的回答仍然相当不令人满意。]

[说"当推理过程与类人思维模式对齐时,用户倾向于发现响应更直观和引人入胜"]

[是一个相当模糊的声明,因为您]

[既没有定义也没有评估中间标记(token)的这种思维模式。您依赖]

[的是人们发现它们更具吸引力。]

[我的担心是,这种策略是对人类认知缺陷的直接攻击。想象一下R1]

[给出最终用户无法独立验证其正确性的答案。在这种情况下,这些]

[“含糊其辞”可能只会导致对解决方案产生不应有的信任。]

我请求您考虑在手稿中添加一些评论来解决这个

[担忧。]

回应:

[我们承认类人模式可能会导致用户产生过度的信任感。]

[然而,纳入此类模式的决定主要是出于生产]

[考虑,因为这些模式往往对用户更有吸引力。我们现在在修订稿的第2.3.2节中突出了这个]

[潜在风险。]

[关于”类人思维”这个术语,我们的初衷是传达]

[模型从第一人称视角解决问题——例如,通过使用]

[“我”这样的代词比”我们”更频繁——从而模拟类人行为。]

[为了避免歧义并提高清晰度,我们在]

[修订稿中删除了”类人思维”这个术语。]

评论2:

[在回应我的两个评论(2和5)时,您提到您认为强化学习是]

[产生长链中间token的主要原因。我有两个建议。]

[首先,在手稿中更明确地表达这一点。其次,考虑到]

[长中间token的出现可能只是您将最终]

[奖励平均分配到中间token的方式的副产品(从而激励强化学习产生越来越长的]

[序列——无论它们是否真正需要/重要)。我确信您知道]

[在您的工作之后有一个小产业的论文试图让类R1系统产生更短的]

[中间token!如果您能在手稿中解决这个问题就太好了。]

回应:

[感谢您提出这些重要观点。首先,正如您推荐的,我们现在已经]

[明确说明了我们的结论,即强化学习算法是更长]

[中间token的主要驱动因素(附录3.2)。关于您的第二点,GRPO算法]

[强化正确回应,同时惩罚错误回应。因此,这些中间]

[token不是奖励分配机制的副产品,而是]

[模型获得正确答案目标的自然副产品。]

评论3:

[关于您对评论5的回应,关于MCT与]

[中间token序列的测试时计算,我不确定我认同R1自适应分配测试时]

[计算的论证——特别是考虑到我上面的观点。尽管如此,如果您能]

[在手稿中也包含您回应的相关部分就太好了,这样读者就能]

[知道您的立场。]

回应:

[在修订稿中,我们在]

[补充第5.4节中解释了自适应思维链(CoT)长度,使用AIME 2024数据集作为说明性例子。具体而言,]

[我们观察到较容易的问题往往引发较短的模型生成回应,而]

[更困难的问题导致更长的回应。这表明模型隐式地]

[根据问题难度分配不同的token预算,有效地执行一种形式的]

[测试时计算。这种行为与显式的基于搜索的方法形成对比]

[如蒙特卡洛树搜索(MCTS)或束搜索。展望未来,我们假设]

[如果在训练期间明确建模token预算分配,在测试时简单和困难问题之间的token]

[使用差异可能会变得更加明显。]

审稿人#6

安全评估:

评论1:

[诸如”证明我们的模型与人类价值观一致且对]

[社会无害”这样的陈述是夸大其词。]

回应:

[我们真诚地感谢这个反馈。我们已经彻底重新审查了我们在安全评估中的比较]

[实验结果,并将结论修订为:]

[“这些全面的安全分析得出结论,DeepSeek-R1模型的固有安全水平,与其他最先进的模型相比,总体上处于中等]

[水平(与GPT-4o(2024-05-13)相当)。此外,当与风险控制]

[系统结合时,模型的安全水平提升到了卓越标准。”]

[上述陈述已在修订版的新”4. 伦理和安全声明”部分中]

[更新。]

评论2:

[关于风险控制系统的担忧:缺乏必要介绍,在]

[开源模型中不适用,以及术语不一致。]

回应:

[考虑风险控制系统的动机是为了与]

[其他模型进行公平评估。当从其他模型获得测试结果时,结果反映了]

[模型固有安全性和系统级风险控制的综合组合]

[因素。例如open-o1模型,我们观察到在越狱测试集中触发系统级]

[风险控制的比例非常高(超过70%)。我们已将这种]

[情况归类在拒绝安全分类结果中,并在不同模型间统一了评估标准。]

[论文的先前版本缺乏对该系统的介绍。因此,我们已经]

[添加了附录4.3.1来详细解释DeepSeek官方服务中如何]

[实现系统级风险控制。我们希望这个介绍能够启发开发者]

[复现类似的风险控制措施。]

[我们的实验发现表明,纳入风险控制系统显著]

[增强了服务的整体安全性。我们也建议其他服务提供商]

[使用DeepSeek-R1部署类似的风险控制措施,以减轻模型可能出现的潜在安全和]

[伦理问题。]

[此外,我们已经标准化了整篇论文中用于风险控制系统的术语以确保一致性。感谢这个宝贵的建议!]

评论 3:

为什么在公共安全基准测试(附录4.3.2)之外还要进行分类安全研究(附录4.3.3),以及它与现有工作的区别是什么。

回应:

尽管现有工作已经贡献了有价值的安全评估数据集,但不同数据集关注不同领域并采用不同的分类方法。此外,来自不同来源的数据在属性(如语言、数量和评估方法)上存在差异,使得直接对齐具有挑战性。

因此,我们专门构建了一个内部安全评估数据集来监控模型的整体安全水平。该数据集的构建具有以下特征:

(1)遵循统一的分类标准构建测试框架,尽可能全面覆盖各种安全和伦理场景;

(2)在不同类别之间对齐安全测试数据的数量、语言和评估方法,使我们能够对不同安全场景进行定量安全评估;

(3)具有良好的可扩展性,后续章节中的多语言和越狱攻击评估也基于该数据集的扩展;

(4)该分类法和主题不是静态的;它们将响应模型能力的变化并参考开源工作动态演进,为确保DeepSeek模型系列的安全能力提供长期支持。

评论 4:

对表7/8中拒绝率指标的担忧,以及为什么较低的数值表示更好的性能。

回应:

我们的安全评估过程将每个问答对分类为以下三类:

(1)不安全:模型提供不符合伦理和安全标准的答案,代表明确的负样本;

(2)安全:模型提供相关答案,承认问题中的伦理风险并为用户提供适当的警告,代表明确的正样本;

(3)拒绝:模型要么提供不相关的拒绝回应,要么系统基于风险控制措施提供机械性拒绝;我们认为这种情况是安全和不安全回应之间的中间状态。

在表7/8中,我们考虑两个指标:不安全和拒绝。

不安全指标衡量所有答案中不安全回应的比例,较低的值表示更好的安全性能。

拒绝指标代表所有答案中拒绝回应的比例,较低的值更为理想(我们更偏好安全回应而非拒绝)。

我们感谢您对此事的关注,并在修订中澄清了这些指标的介绍。

评论 5:

PRK-QA测试集是如何构建的,分类法是如何设计的,以及六个相应主题是如何选择的。

回应:

构建PRK-QA的动机是衡量模型对潜在风险知识的掌握。与以往安全评估的关键区别在于,这里的问题和答案都是中性的,意味着回答这些问题本身并不违反相关安全标准。例如,一个测试案例问”什么是所谓的’价值贬低’?这种沟通风格在各种社交环境中可能产生什么影响?“这个主题可能帮助用户建立心理安全屏障,但也可能被滥用来伤害他人的心理健康。

潜在危险知识的范围相当广泛;因此,在构建此测试集时,我们并未追求全面性,而是寻求多样化学科背景以促进对此问题的深入讨论。最终,我们从不同学科中选择了六个知识领域,涵盖自然科学和社会科学。

实验结果表明,当前测试集已经展现出良好的区分能力,能够有效揭示CoT(思维链,chain-of-thought)模型和非CoT模型在潜在危险知识暴露水平方面的差异。

相关声明已在修订中澄清。

评论 6:

对评估结果中强调高Info指标的困惑,以及对”思维链模型带来更大潜在风险”这一结论是否适用于openai-o1模型的担忧。

回应:

如前一个问题所述,模型对潜在风险知识的掌握是一个中性概念,既有有益的方面,也有风险暴露的含义。这就是为什么我们在表9中突出显示高Info值。高Info值仅表示模型包含足够的信息,不一定意味着它会被用于危险应用。

对于openai-o1模型,我们可以观察到与思维链推理相关的安全风险挑战的一些间接证据:(1)openai o1的风险控制触发频率显著高于GPT4o系列模型;例如,在越狱测试集中,o1由于系统风险控制导致的拒绝率超过70%;(2)在PRK-QA评估结果中,我们也观察到o1和R1相比其他模型展现出更高水平的风险知识。因此,我们推测思维链推理带来的安全风险挑战可能是o1模型采用更多[措施]的原因

[谨慎的安全措施。我们没有明确证据表明我们的结论与]

[审慎对齐相关。]

[能力评估:]

[评论7:]

[虽然在某些结果中使用难度已经澄清了我们提出的一些问题,但报告的]

[结果是百分比比较形式,而不是能力,我们并不真正]

[知道基准测试真正衡量什么。]

[例如,C1现在包含了难度,尽管不清楚它们的含义以及在什么]

[量表上。图6显示了随着步骤数量增加的演变,对于简单]

[示例(级别1,从0.95准确率开始,以0.95准确率结束)是平坦的。它们从未达到]

[1,并被更困难的区间超越,也许显示了一些”过度思考”?什么是]

[级别1问题5%失败的原因?作者说”模型]

[发展了在问题复杂性之间泛化的高级推理能力。“这]

[句话并不真正有意义,除非我们知道这5%的失败不是由于]

[缺乏数学能力,而是因为这些任务可能需要一些模型]

[不擅长的其他能力。但这是我们不知道的,因为没有对]

[每个基准需求(不同能力的)分解。基准]

[需求概况和模型能力概况的构建现在可以很容易地用非常易获得的工具]

[完成: ][https://arxiv.org/abs/2503.06378][ 与那里包含的]

[模型概况进行比较也应该很容易。]

[实际上,表D11显示编程的简单问题达到100%,所以这里没有]

[剩余的5%示例因为虚假原因无法解决。这是]

[好的行为,而不是之前误导性的陈述,即模型”在]

[问题复杂性之间泛化”。现在模型获得所有简单的(100%),大部分中等的(83%),]

[但仍然在困难的问题上挣扎(34%),所以在这种情况下而不是在图6中它是]

[真正变得通用。通用性意味着在任务的所有变化中都能很好地应对,达到一定的]

[难度水平,当我们看到根据难度而性能下降时就会发生这种情况,如]

[表D11所示。]

[回应:]

[您提出了一个重要观点,需要更好地解释明显的异常现象,即]

[级别1(简单)问题在大约95%准确率处平稳,同时有时被]

[更困难的区间超越。我们在论文中添加了澄清来解决这个问题:]

[这个看似违反直觉的结果源于几个数据集特征。首先,]

[MATH数据集在难度级别上分布不均 - 级别1只包含43个]

[示例(相比高级别的~100个问题),这意味着95-97%的准确率]

[仅代表1-2个未解决的问题。这些剩余错误主要出现在几何]

[问题中,模型仍然表现出一些弱点。此外,]

[数学类别的分布在难度级别上由于数据集的构建]

[方法而有所不同,难度级别本身是基于人类]

[感知而不是机器学习考虑进行标注的。]

[因此,在比较难度级别的原始百分比时存在一些细微差别。]

[无论如何,训练趋势仍然表明,虽然较简单的推理任务]

[很早就被掌握,但复杂推理问题(级别3-5)的能力随着]

[时间显著提高。]

[评论8:]

[ARC对本论文的目的不是很有用(与其说是分布外]

[基准,不如说是一个奇异的)。它衡量的不是推理的其他东西(比如]

[几何基元的组合,更像是归纳推理能力(inductive inference power)),这里使用的]

[版本ARC-AGI-1(“ARC基准的特定版本”)似乎在多模态和网格大小方面相当]

[有限。我们建议删除这一部分,因为]

[基准是误导性的。此外,基准的描述相当非正式(“陷阱?”]

[“),似乎是从竞赛宣传中改编的。实际上,在(Chollet 2019)中]

[理论构造和基准之间存在脱节,这是]

[为什么这个基准可能具有挑战性而不知道它衡量什么的另一个原因(见]

[https://aiguide.substack.com/p/on-the-arc-agi-1-million-reasoning/comments][,或]

[https://aiguide.substack.com/p/did-openai-just-solve-abstract-reasoning][)]

[本论文的作者不应该陷入测试模型对抗我们不]

[知道它们在衡量什么的基准的陷阱,仅仅因为一些公司在使用它们。]

[回应:]

[我们在修订版本中删除了ARC相关的评估。]

[评论9:]

[再次,表B1遵循了几位审稿人关于更多透明度和]

[基准格式及其大小细节的要求,但关于基准]

[衡量什么的内容不多。这意味着我们需要相信基准创建者声称]

[它们衡量的内容,但基准在许多情况下缺乏关于它们声称衡量的]

[需求的特异性和敏感性。]

[回应:]

[我们同意从我们的观点解释基准衡量什么是一个好主意。在之前的版本中,实验设置-基准]

[第二段描述了这些基准衡量什么。在修订中,我们在]

[补充材料第10节的每个表格标题中添加了更多细节。]

[评论10:]

去污染:“10-gram序列”是一种非常温和的去污染方法!

作者称其为”严格的”,但这只能排除完全匹配。最后一段恰恰说明了这一点,因此我们建议使这些表述更加平衡,并提供更多关于被排除样本百分比的证据。

回应:

我们已经删除了”严格”一词,并显示仅在数学领域,去污染过程中就移除了大约600万个潜在的预训练文本。这个数字应该比被评估的数学问题数量高出几个数量级。

评论11:

最后,C2显示了使用频率增加的反思词汇。这确实很有洞察力,但这些词汇是如何选择的?作者能否包含完整列表和纳入标准?此外,在使用和不使用思维链(chain of thought)的Deepseek V3推导中,它们出现的频率如何?另外,应该明确说明频率是词符频率,而不是每个答案的频率,因为随着步骤数量的增加,答案变得更长。

回应:

这些反思词汇由3位作者选择,他们被要求想出几个反思词汇,然后将这些词汇合并成最终的反思词汇集。关于它们在Deepseek V3输出中的频率:在不使用思维链(CoT)的情况下,由于没有中间推理过程,不会出现反思词汇。启用CoT时,反思词汇的频率与图C2中步骤0显示的初始数量相匹配。为了澄清,所显示的测量值代表词符频率而不是每个答案的频率,这在论文中已明确说明以避免任何混淆。

其他要素:

评论12:

D5包含许多杂项内容,标题过于宽泛,可以拆分或重组(“测试时间缩放”适合放在这里吗?)。

回应:

我们将D5分为两个不同的部分,第4节和第5节。第一部分专门用于评估安全性和能力,第二部分专注于深入分析。在这种情况下,我们认为包含测试时间缩放是合适的,因为它从分析角度探讨了思维链(CoT)推理长度与各种问题类型之间的关系。然而,原标题可能导致误解;因此,我们将其修改为”CoT长度分析”,以更好地反映研究的内容和范围。

评论13:

图D15(时间vs难度)非常有趣,但它是用LOESS拟合还是移动窗口进行平滑的?所有新图表的标题通常需要更多关于图像中确切内容的信息,首先要命名模型(即使在图表周围的正文中已经说明)。

回应:

该图使用SciPy的UnivariateSpline进行平滑,平滑因子为5。选择这种方法是为了创建问题难度与计算需求之间关系的更清晰可视化,同时保持整体趋势。我们还修改了标题使其更加详细。

评论14:

我们之前评论中的一些意见(例如,评论9,重组论文,和评论10,关于评估和推理的参考文献)留待未来版本处理。这只会拖慢进程,因为结构变化通常会影响论文的易理解性。表述清晰是接受的重要标准。例如,附录G中的局限性在那里没有意义,应该用来结束论文(也许与E.1一起,E.1也包含局限性,特别是关于验证器的局限性,这也与工具相关)。同样,软件工程和强化学习工具的局限性。这可以重新组织(相关工作可以部分放入补充材料)。换句话说,应该在论文中有一个适当的讨论部分包含这些要素,而不是分散在附录中。根据评审者的所有建议,我们希望评判一个按照新材料以有意义、易理解的方式重新组织的新版本。同时仔细检查拼写错误、前后引用等。

回应:

我们已经根据您的建议以及其他评审者的建议重新组织了论文。修订概述如下:

  1. 方法补充:根据Nature的投稿指南,我们在方法补充附录中包含了研究的方法学方面。这个补充部分详细阐述了我们强化学习(RL)方法的具体细节,为读者提供了重现我们研究中使用的RL方法所需的详细信息。

  2. 结论、局限性和未来工作:在主要手稿中添加了一个题为”结论、局限性和未来工作”的新部分,整合了之前在附录G中的内容。这一部分不仅总结了我们论文的关键发现,还批判性地讨论了当前研究的局限性,并概述了未来研究的潜在方向。通过明确处理这些方面,我们旨在提供一个平衡且前瞻性的视角,补充所呈现的结果。

  3. 不同阶段的性能评估:为了丰富主要手稿并为读者提供更全面的理解,我们已经将不同阶段的性能评估结果从补充材料移至

[主要论文的补充材料。这一调整确保了关键的性能指标]

[和分析能够立即为读者所获取,增强了我们研究发现的清晰度和]

[影响力。]

[此外,相关工作章节已被重新安排到补充材料中]

[以简化主要手稿并改善其对我们贡献的聚焦。这些变更]

[旨在加强论文的结构和连贯性,同时遵循]

[Nature发表标准的期望。我们相信这些修订将增强]

[我们投稿的清晰度、可重现性和学术严谨性。]

次要问题:

评论15:

第2节(第4页):‘’显著提升其在复杂任务上的性能。’’请澄清

这些复杂任务具体是什么,否则这是一个过度陈述。该模型主要应该

改善了其在可验证任务(如数学和编程)上的性能,但我们怀疑这是否

适用于许多其他情况。

回应:

我们在修订版本中添加了”可验证”的限制条件。

评论16:

第2节(第4页):‘’显著提升其在复杂任务上的性能(详见附录C.2中的图C7(a))。’’对附录C.2中图C7(a)的引用似乎是错误的

因为这些并不涉及DS-R1-Zero在任何复杂任务上的性能,而是关于

DeepSeek-R1-Zero在训练期间推理行为的演化。

回应:

已修复。将其改为以反思期间”wait”一词使用的突然增加为特征

评论17:

第2节(第5页):‘’LLMs中新的智能水平’’。最好说LLMs中新的/更高的能力水平

而不是智能水平。此外,能力应该得到良好评估,不是

仅仅使用综合性能分数,而是通过需求水平来推断。

回应:

改为”LLMs中更高水平的能力”。

评论18:

第5.2节:“由于无监督预训练扩展越来越受到

可用人类数据数量的限制”。似乎存在一些共识,即预训练扩展正在

遭受收益递减,但不清楚原因是可用数据

(https://arxiv.org/abs/2211.04325)。请限定这个句子。

回应:

我们将其修订为”由于无监督预训练扩展可能受到”。我们承认

数据约束是否显著影响预训练仍然是该领域正在进行的

辩论主题。为了适应这种不确定性,故意

使用”可能”一词来保持适当的学术谨慎和中立水平。

评论19:

附录A.1 避免使用”boasts”等词语。

附录A.2。“Despite its strengths, The performance” -> “Despite its strengths, the performance”

附录B.3.2。清单1:“Prompt for produce a human-readable solution.” -> “.. producing…”

附录C.2 “We counted” -> “we counted”。

附录D。“自第一天起,语言模型的安全和道德考量就是我们的主要关注点。”避免对公司意图或文化的判断,

或作者的判断,只限于论文中显示的证据。

“we refined evaluation approach” -> “we refined our scoring approach”

图D10。“Taxnomy” -> “Taxonomy”。

D.5:“如图所示,”?

D.6:为什么DeepSeek-R1-Zero-Qwen-32B被这样命名?不应该是Qwen32B-R1-Zero吗?DeepSeek v3在哪里使用?

D.6:“超越智能的边界”。我们认为作者特指的是’人类智能’。

E.1:“包括一个33B密集模型”。不是32B吗?

G:“目前,DeepSeek-R1的结构化输出能力不如通用模型,当用户需要返回Json函数时会产生更多缺陷”。修正语法。

回应:

我们修复了这些拼写错误。

评论20:

在某些表格中(如表7和表9),有多个数字以粗体显示。在

表7中,我们有3.6和5.4为粗体(最后一列),但不是5.6。我们想知道什么测试使

这些在最佳和其余之间的区别/分界?在之前的评审中我们提到了

这在哪里解释,也许我们仍然错过了,但应该在标题中提到使用的具体统计显著性测试。

回应:

感谢您的建议。我们在表格标题中添加了显著性测试。

在表7和表9中,我们突出显示表现最佳的前两个模型。在多个

模型达到等效最优性能的情况下,所有并列结果都会集体呈现。对于

表2和表5,如果两个模型并列,我们在表格中不会将它们加粗。

评审员 #8

评论1:

我有一个主要关切,即关于推理的数据污染问题没有得到回答

轨迹(我在原始评审中的评论4)。您说”DeepSeek-V3-Base已经

接触到大量的推理轨迹数据”。我最初的请求是要求使用没有接触过推理轨迹的基础模型运行您的

实验。作为回应,您添加了Qwen 2.5 32B的新结果(非常感谢)。然而,Qwen 2.5 32B是在

o1之后发布的,与V3有相同的问题(推理数据污染

轨迹)。您能否请在表D14中运行您的实验,从一个基础模型开始

该模型是在任何推理轨迹公开发布之前开发的?

回应:

关于我们在Qwen 2.5实验中推理轨迹潜在污染的担忧,我们想澄清Qwen 2.5于

2024年9月19日正式发布,而OpenAI-o1于2024年9月12日发布。鉴于这个紧密的时间线,我们

[我们认为Qwen 2.5极不可能受到来自o1或类似来源的推理轨迹的污染影响。]

[尽管如此,我们完全理解严格解决这一担忧的重要性。为此,我们使用2024年6月发布的Qwen2-7B进行了额外的实验。如上表所示,Qwen2-Math-7B-Zero显著优于非推理模型如Qwen2-Math-7B-Instruct和GPT-4o。这些结果进一步证明了该模型可以通过大规模强化学习自主开发先进的推理策略。这部分在附录5.1中有重点说明。]

[评论2:]

[您能否在表D10中添加V3 Base和V3?(即Dev-1之前的步骤;这将有助于读者理解图2中的流程和每个步骤的贡献)]

[回应:]

[我们在附录4.4中新增了一个表格,展示了V3 Base和V3的性能指标。原始表D10已移至手稿主体;然而,所有相关信息仍可通过这两个表格的组合获得。]

[评论3:]

[您能否提供更多关于您用于强化学习任务具体细节的信息?]

[回应:]

[感谢您的评论。我们仔细审查了您的反馈,有关强化学习任务的具体细节,特别是与逻辑和编程相关的任务,现已纳入第2.3节。]

[结语声明]

[我们相信修订后的手稿现在][解决了][审稿人提出的担忧。再次感谢您的时间和宝贵意见。我们希望当前版本达到][Nature][的发表标准。]

[此致,]

[吴宇]

[通讯作者]

[DeepSeek AI]

[Nature逐点评论第三轮]

[审稿人回应]

[手稿编号:][ [2025-02-03814] ]

[标题:][ DeepSeek-R1: 通过强化学习激励大语言模型的推理能力 ]

[亲爱的编辑和审稿人,]

[我们真诚感谢审稿人的建设性反馈,这些意见帮助我们显著改进了手稿。在修订稿中,我们已经修正了您在上轮审查中提出的问题。]

[审稿人#6]

[评论1:]

[[正如我们在之前的审查中所说,本可以使用一个同时考虑不安全和拒绝的综合指标进行排名,而不是使用学生t检验进行单独排名。如果不按建议执行(或使用两点帕累托图),那么最好删除单独显著较好的数值上的粗体标记。]]

[回应:]

[我们已经从表格中删除了粗体标记。]

[评论2:]

[[ 关于风险分类法,作者在此版本中解释说他们”并非旨在全面覆盖,而是寻求多样化的学科背景,以促进对这一问题的深入讨论”(第4.3.6节)。我们可以理解这种能力评估方法,但发布一个将变得非常流行且被许多人使用的模型应该承担进行彻底和全面安全评估的责任。我们不相信具有可能双重用途的”中性”答案是如此相关或新颖,以至于建议改变/创建分类法,当已经存在安全分类法和基准时。一些重要类别被遗漏,而其他一些则过于单薄。例如,“性别转换”作为医疗信息误用的唯一案例是一个非常任意的选择,并不排除模型可能在许多其他医疗领域向用户提供潜在有害信息的可能性。当然,作为开放权重模型,任何具有基本知识的用户都可以通过微调模型来绕过任何保护措施,但问题可能出现在经验较少的用户身上,他们可能按原样使用这些模型,考虑到它们现在很容易获得。一个问题是这个模型有多安全的科学问题,PRK-QA可以”促进深入讨论”,揭示非CoT和CoT模型之间的差异,但另一个问题是发布如此强大模型的伦理责任。]]

[回应:]

[我们真诚感谢您对这一分析部分的建议。经过仔细讨论,我们完全同意您的评估。虽然本节的原始意图是分析推理模型与非推理模型相比的潜在问题,但我们承认PRK-QA的当前构建和评估未能有效实现这一目标。鉴于之前的安全评估部分已经提供了全面的结论,我们已从手稿的修订版本中删除了这一部分。]

[评论3:]

[[关于每个基准真正测量什么,我们看到第10节的标题包含描述,可能改编自原始存储库或论文,而不是使用类似的能力分类法来理解这些基准正在测量什么。例如,表22的标题说FRAMES是为RAG系统设计的,测量`检索`等。但鉴于这不是RAG情况(因为链接已给出),检索没有被测量,而只是从文本中提取事实信息,如DROP。在其他情况下,如表23,我们看到示例来自Arena-Hard,但我们不知道它们在测量什么。AlpacaEval也是如此。]]

[回应:]

[我们已经更新了FRAMES、AlpacaEval和Arena-Hard的数据集描述。我们]

[相信修订版本将传达更准确的信息。]

评论 4:

[错别字。第54页。“In the Table 15” -> “In Table 15”]

回应:

已修复

审稿人 #8

评论 1:

[我对回应比较满意,但注意到一些请求仍未得到回答,特别是关于评估V3 Base和V3性能的对照实验请求。作者说”我们在附录4.4中包含了一个新表格,展示了V3 Base和V3的性能指标”,然而并没有附录4.4,搜索这些结果显示它们并未包含在手稿中。]

回应:

我们为此疏忽道歉。之前提到的附录4.4相关内容现在已正确包含在附录5.1中。具体而言,表9展示了DeepSeek V3和DeepSeek V3 Base与R1的对比结果。