刚刚,DeepSeek-R1荣耀登上了Nature杂志的封面!
今年1月,论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》发布,如今成功登上全球顶级期刊封面。
通讯作者梁文锋带领的团队,用强化学习(RL)为大模型的推理能力开辟了一条全新的路径。
论文地址:https://www.nature.com/articles/s41586-025-09422-z
在封面推荐中,Nature毫不吝啬地赞扬了DeepSeek-R1的卓越成就。
开源后,R1在Hugging Face成为最受欢迎的模型,下载量突破1090万次。尤为关键的是,它是全球首个经过同行评审的主流大模型。
值得一提的是,补充材料首次公开了R1的训练成本——294,000美元,这个数字低得惊人。
即便加上约600万美元的基础模型成本,也远低于OpenAI、谷歌训练AI的成本。
从一篇arXiv论文到Nature封面,DeepSeek团队再次用实力为AI推理的未来铺路。
R1被认为是首个经历同行评审过程的主流LLM(大型语言模型)。
审稿人Lewis Tunstall表示:
这是一个非常值得欢迎的先例。若不公开分享大部分研发过程,我们将难以评估这些系统是否存在风险。
针对同行评审意见,DeepSeek减少了拟人化描述,并增加了技术细节说明,包括模型训练数据类型和安全性能。
审稿人Huan Sun表示:
通过严格的同行评审过程,有助于验证模型的有效性和实用性,其他公司也应效仿。
研究团队的出发点大胆而纯粹:彻底抛开对人类推理轨迹的依赖。
人类定义的推理模式,可能反而是一种束缚。
他们选择了一个强大的基础模型DeepSeek-V3 Base,跳过了传统的SFT(有监督微调)阶段。
取而代之的是一个极其简洁的强化学习框架,只告诉模型两件事:
任务格式:回答必须包含两部分,一个是被<think>标签包裹的「思考过程」,另一个是被<answer>标签包裹的「最终答案」。
奖励信号:根据最终答案是否正确来给予奖励,不管采用什么样的思考方法。
在没有解题步骤的对错评判、没有思维方式的引导下,DeepSeek-R1-Zero开始了它的「野蛮生长」。
在整个训练过程中,R1-Zero的推理能力发生了质的飞跃。
以AIME 2024为例,它的平均解题准确率(pass@1)从最初的15.6%,一路狂飙至77.9%。
如果再配合「自洽解码」技术,准确率更是高达86.7%——这一成绩远超AIME竞赛中所有人类选手的平均水平。
更令人着迷的是,它在能力提升过程中展现出的自我进化行为。
「思考时间」自主增加
随着训练的进行,模型在<think>标签内生成的文本长度稳步增加。
它自发地学会了用更长的「思维链」来探索和优化解题策略,有时甚至会生成成百上千个token来反复推敲一个问题。
高级推理策略的涌现
模型不再是线性地一步步解题,而是开始展现出「自我反思」和「系统性探索替代解法」等高级策略。
它会验证自己的中间步骤,甚至会主动探索「如果我用另一种方法会怎么样?」
一个有趣的「顿悟时刻」
在训练的某个阶段,研究人员观察到了一个清晰的「顿悟时刻」(Aha Moment)。
也就是,模型在反思过程中使用「wait」(等等)这个词的频率突然急剧增加。
这一时刻标志着DeepSeek-R1-Zero在推理模式上发生了明显转变,清晰地揭示了它的自我进化过程。
尽管DeepSeek-R展现了神级的推理能力,但由于其训练完全以推理为导向,它存在可读性差、偶尔会在中英文之间混乱切换的问题,并且在写作、开放域问答等通用能力上表现平平。
本文由主机测评网于2026-04-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441502.html