当前位置:首页 > 科技资讯 > 正文

DeepSeek-R1引领AI透明化:无限制RL训练激发新推理能力

开源人工智能(AI)的潜力正被更广泛地认可。

近日,权威科学期刊 Nature 以封面文章的形式刊登了DeepSeek-R1 论文,其创始人兼 CEO 梁文峰担任通讯作者。

DeepSeek-R1引领AI透明化:无限制RL训练激发新推理能力 DeepSeek-R1 无限制RL LLM 同行评审 第1张

论文链接:https://www.nature.com/articles/s41586-025-09422-z

研究团队假设,人类定义的推理模式可能会限制模型的探索,而无限制的强化学习(RL)训练能更有效地激发大语言模型(LLM)的新推理能力。

实验证明,通过纯 RL 训练,LLM 的推理能力得以提升,减少了增强性能所需的人类输入工作量,在数学、编程竞赛和 STEM 领域等任务上表现优于传统方法训练的 LLM。

DeepSeek-R1 发布后,受到全球开发者的广泛好评,截至本文撰写时,其在 GitHub 上的 star 数已达到 91.1k。

在一篇同期发表的观点与评论文章中,卡内基梅隆大学助理教授Daphne Ippolito及其博士生张益铭(现为 Anthropic 的 LLM 安全和对齐研究员)评价道:

“DeepSeek-R1 已从强大的解决方案寻找者,发展为能够进行类人对话的系统。这一历程反映了社会对 AI 系统的需求,这些系统不仅要准确解决问题,还要成为人类能理解、信任并能进行有意义协作的工具。”

DeepSeek-R1引领AI透明化:无限制RL训练激发新推理能力 DeepSeek-R1 无限制RL LLM 同行评审 第2张

文章链接:https://www.nature.com/articles/d41586-025-02703-7

此外,Nature 在 Editorial 文章中肯定了这项工作,“DeepSeek-R1 是第一个经过同行评审后发表的主流 LLM,这是朝着透明化迈出的可喜一步”。

DeepSeek-R1引领AI透明化:无限制RL训练激发新推理能力 DeepSeek-R1 无限制RL LLM 同行评审 第3张

文章链接:https://www.nature.com/articles/d41586-025-02979-9

他们指出,经同行评审的论文发表有助于澄清 LLM 的工作原理,并评估其真实性

DeepSeek-R1引领AI透明化:无限制RL训练激发新推理能力 DeepSeek-R1 无限制RL LLM 同行评审 第4张

DeepSeek-R1 背后的科学

人类定义的推理模式可能会限制模型的探索,无限制的 RL 训练能更有效地激发 LLM 的新推理能力。

让机器像人类一样进行通用推理一直是 AI 领域的核心难题。

尽管思维链(CoT)等方法能提升 LLM 的推理表现,但严重依赖人工标注且扩展性差,可能因人类认知偏差而限制模型潜力。

DeepSeek-R1 的意义在于,它证明了通过纯粹的 RL 即可激发 LLM 的推理能力,无需依赖人工标注的推理过程。

不同于基于提示的方法和监督学习等早期方法,研究团队提出了一种新范式——在 RL 框架中最小化对人工标注的依赖,探索 LLM 通过自我演化发展推理能力的潜力。

基于提示的方法 vs. 监督学习 vs. RL

正如 Ippolito 等人所比喻的,RL 算法的工作方式类似于人类玩家学习玩电子游戏的过程:通过试错发现哪些行为带来奖励。相比之下,基于提示的方法像是通过阅读说明书学习游戏,而监督学习则像是观察其他玩家。

他们发现,当 LLM 通过 RL 的试错过程被训练以产生正确答案时,会自然地输出其推理过程。

DeepSeek-R1引领AI透明化:无限制RL训练激发新推理能力 DeepSeek-R1 无限制RL LLM 同行评审 第5张

图|RL 框架

DeepSeek-R1引领AI透明化:无限制RL训练激发新推理能力 DeepSeek-R1 无限制RL LLM 同行评审 第6张

图|DeepSeek-R1 的多阶段 pipeline