震撼来袭!
实至名归的突破!
最新一期的《Nature》杂志封面,竟聚焦于DeepSeek-R1的研究成果。
今年1月,DeepSeek在arxiv发表了论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。这篇《Nature》论文的通讯作者正是梁文锋。
论文链接:https://www.nature.com/articles/s41586-025-09422-z
在封面的推荐介绍中,《Nature》写到:
若大模型能规划解题步骤,则能更优地解决问题。此『推理』过程与人类处理复杂问题的方式类似,但对AI而言是巨大挑战,需人工干预添加标签和注释。本周的期刊中,DeepSeek研究人员揭示了如何在极少人工输入下训练模型进行推理。
DeepSeek-R1模型采用强化学习进行训练。在此学习中,模型正确解答数学问题时会获得高分奖励,答错则会受罚。结果,它学会了推理——逐步解决问题并揭示这些步骤——更可能得出正确答案。这使得DeepSeek-R1能够自我验证和自我反思,在给出新问题的答案前检查其性能,从而提高其在编程和研究生水平科学问题上的表现。
此外,在这周期刊中,《Nature》还盛赞了DeepSeek-R1的开放模式。
值得注意的是,R1被认为是首个通过权威学术期刊同行评审的大语言模型。
Hugging Face的机器学习工程师、同时也是该论文审稿人之一的Lewis Tunstall表示:「这是一个受欢迎的先例。若缺乏这种公开分享大部分研发过程的行业规范,我们将很难评估这些系统的潜在风险。」
为回应评审意见,DeepSeek团队不仅避免了对模型的拟人化描述,还补充了关于训练数据类型和安全性的技术细节。俄亥俄州立大学AI研究员Huan Sun评论道:「经历严格的同行评审,无疑能有效验证模型的可靠性与实用价值。其他公司也应效仿此举。」
显而易见,当前AI行业充斥着发布会上的惊艳演示和不断刷新的排行榜分数。
但正如文中所指,基准测试可被『操控』。将模型的设计、方法论和局限性交由独立的外部专家审视,能有效挤出其中的水分。
同行评审充当了公正的『守门人』,要求AI公司从『王婆卖瓜』式的自我宣传,转向用扎实的证据和可复现的流程来支持其声明。
因此,DeepSeek-R1论文本身固然有其科学价值,但作为首个接受并通过主流期刊同行评审的LLM,其『程序价值』可能更为深远。
可以预见的是,将LLM纳入独立的同行评审体系,是从『技术竞赛』迈向『科学纪律』的关键一步,对于遏制行业乱象、建立公众信任至关重要。
接下来,让我们回顾这篇重磅研究。但建议大家细看下《Nature》上发表的论文,有更多补充细节:
DeepSeek-R1的多阶段pipeline
以往研究主要依赖大量监督数据提升模型性能。DeepSeek开发团队则开辟了一条全新思路:即使不用监督微调(SFT)作为冷启动,通过大规模强化学习也能显著提升模型的推理能力。若加上少量冷启动数据,效果更佳。
为此,他们开发了DeepSeek-R1-Zero。具体来说,DeepSeek-R1-Zero主要有三点独特设计:
首先采用群组相对策略优化(GRPO)来降低训练成本。GRPO无需使用与策略模型同样大小的评估模型,而是直接从群组分数中估算基线。
其次是奖励设计。如何设计奖励决定RL优化的方向。DeepSeek给出的解法是采用准确度和格式两种互补的奖励机制。
第三点是训练模版。在GRPO和奖励设计的基础上,开发团队设计了如表1所示的简单模板来引导基础模型。此模板要求DeepSeek-R1-Zero先给出推理过程,再提供最终答案。这种设计仅规范了基本结构,不对内容施加任何限制或偏见。这种最小干预的设计能清晰地观察模型在RL的进步过程。
在训练过程中,DeepSeek-R1-Zero展现出显著的自我进化能力。它学会了生成数百到数千个推理token,能更深入地探索和完善思维过程。
随着训练的深入,模型也发展出了一些高级行为,如反思能力和探索不同解题方法的能力。这些都不是预先设定的,而是模型在强化学习环境中自然产生的。
特别值得一提的是,开发团队观察到一个有趣的『Aha Moment』。在训练中期阶段,DeepSeek-R1-Zero学会了通过重新评估初始方法来更合理地分配思考时间。这可能就是强化学习的魅力:只要提供正确的奖励机制,模型就能自主发展出高级的解题策略。
不过DeepSeek-R1-Zero仍存在一些局限性,如回答的可读性差、语言混杂等问题。
与DeepSeek-R1-Zero不同,为防止基础模型在RL训练早期出现不稳定的冷启动阶段,开发团队针对R1构建并收集了少量的长CoT数据,作为初始RL actor对模型进行微调。为收集此类数据,开发团队探索了几种方法:以长CoT的少样本提示为例、直接提示模型通过反思和验证生成详细答案、以可读格式收集DeepSeek-R1-Zero输出、以及通过人工注释者的后处理来细化结果。
DeepSeek收集了数千个冷启动数据,以微调DeepSeek-V3-Base作为RL的起点。相较于DeepSeek-R1-Zero,冷启动数据的优势包括:
可读性:DeepSeek-R1-Zero的一个主要限制是其内容通常不适合阅读。响应可能混合多种语言或缺乏markdown格式来为用户突出显示答案。相比之下,在为R1创建冷启动数据时,开发团队设计了一个可读模式,在每个响应末尾包含一个摘要并过滤掉不友好的响应。
潜力:通过精心设计具有人类先验知识的冷启动数据模式,开发团队观察到相较于DeepSeek-R1-Zero更好的性能。开发团队相信迭代训练是推理模型的更好方法。
本文由主机测评网于2026-04-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441498.html