当前位置：首页 > 科技资讯 > 正文

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作

主机测评网
科技资讯
2026-03-16
898

千呼万唤始出来，备受期待的DeepSeek-R2虽未登场，但R1模型却悄然更新，再次成为业界焦点。

还记得去年登上《Nature》封面的那篇关于R1的论文吗？如今它又添了64页重磅内容。

没错，你没听错，篇幅从22页猛增至86页，几乎可以当作教科书研读。

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作 DeepSeek-R1 技术细节团队稳定 AI安全第1张

谁能想到，论文发布近一年后，DeepSeek竟还能补充如此多内容。

DeepSeek重磅补充64页技术细节

对比新旧两版论文，发现变化远超预期。

新版本信息量巨大，不仅新增附录，正文也大幅修订，几乎重写。

回顾去年1月发布的v1版，主要围绕DeepSeek-R1-Zero，旨在证明纯强化学习的可行性。

而v2版则更聚焦具体实现，详细展开了R1的完整训练流程。

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作 DeepSeek-R1 技术细节团队稳定 AI安全第2张

整个过程分为四步：

第一步，冷启动。使用数千条体现思考过程的CoT数据进行监督微调。

第二步，推理导向强化学习。在不破坏对话风格的前提下提升能力，同时引入语言一致性奖励，解决语种混用问题。

第三步，拒绝采样和再微调。融合推理与通用数据，使模型兼顾推理与写作能力。

第四步，对齐导向强化学习。优化有用性和安全性，使模型行为更贴近人类偏好。

读后令人感叹：DeepSeek真是毫无保留，将冷启动数据来源、两轮强化学习目标、奖励模型设计等细节悉数公开，堪称教科书级分享。

除了R1，R1-Zero部分也有补充，特别是关于「Aha Moment」的探讨。

v1版曾展示模型在思考时长扩展时，会突然出现「反思」行为。

此次DeepSeek对此涌现现象做了深入分析，详见附录C.2：

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作 DeepSeek-R1 技术细节团队稳定 AI安全第3张

团队筛选了「wait」「mistake」「however」等反思性词汇，由专家合并词表，统计训练过程中出现频率。

结果显示，训练后期这些词汇出现次数比初期增长了5到7倍。

关键在于，模型在不同阶段的反思习惯存在差异。

以「wait」为例，训练早期几乎未见，8000步后突然出现明显峰值。

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作 DeepSeek-R1 技术细节团队稳定 AI安全第4张

不过，DeepSeek-R1虽推理能力出众，但作为开源模型，安全性至关重要，防止被微调用于生成有害内容。

v1版曾提及针对安全性进行强化学习，此次则详细披露了相关细节和评估方法。

为评估并提升安全性，团队构建了10.6万条提示的数据集，依据安全准则标注模型回复。

奖励模型方面，安全奖励模型采用点式训练，区分安全与不安全回答，超参数与有用性奖励模型一致。

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作 DeepSeek-R1 技术细节团队稳定 AI安全第5张

风险控制系统方面，DeepSeek-R1通过向DeepSeek-V3发送风险审查提示实现，包含两个流程：

1、潜在风险对话过滤。

每轮对话结束后，系统将用户输入与安全关键词匹配，命中即标记为「不安全对话」。

2、基于模型的风险审查。

识别后，系统将不安全对话与预设风险审查提示拼接，发送给DeepSeek-V3评估是否拦截。

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作 DeepSeek-R1 技术细节团队稳定 AI安全第6张

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作 DeepSeek-R1 技术细节团队稳定 AI安全第7张

实际应用表明，引入风险控制系统后，模型安全性显著提升，各项基准测试中R1表现与前沿模型相近。

唯一例外是HarmBench，R1在知识产权相关问题上表现欠佳。

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作 DeepSeek-R1 技术细节团队稳定 AI安全第8张

DeepSeek还构建了内部安全评测数据集，分4大类、28子类，共1120道题。

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作 DeepSeek-R1 技术细节团队稳定 AI安全第9张

评测采用LLM-as-a-Judge范式，用GPT-4o判定模型输出安全性，分为三类：不安全、安全、拒答。

下图展示了DeepSeek-V3、DeepSeek-R1、Claude-3.7-Sonnet和GPT-4o在该测试集上的表现。

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作 DeepSeek-R1 技术细节团队稳定 AI安全第10张

除了技术干货，网友还从作者栏发现一个细节——

论文发表近一年后，18位核心贡献者全员在岗。

总计100多位作者中，仅5位标注星号（已离开团队）。

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作 DeepSeek-R1 技术细节团队稳定 AI安全第11张

而去年的作者栏曾有6个星号——比今年还多一个。

计数发现，消失的星号来自Ruiqi Ge。

这位此前离队的作者，如今已重返团队。

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作 DeepSeek-R1 技术细节团队稳定 AI安全第12张

在人才争夺激烈的AI行业，DeepSeek团队不仅未流失，反而迎来「回流」。

对比硅谷，反差尤为明显。

前段时间，OpenAI首席研究官Mark Chen在播客爆料：

我团队一位核心研究员告诉我，扎克伯格带着亲手煮的南瓜汤出现在他家门口。

看似温情，但从LeCun离职风波来看，扎克伯格的「煲汤式招聘」似乎先让内部文化出现裂痕。

老员工被裁是最明显的，就连最受器重的亚历山大王，据说有时也对扎克伯格感到颇为不耐烦。

小扎呀，煲汤这招若不好使，不如向DeepSeek取取经？

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作 DeepSeek-R1 技术细节团队稳定 AI安全第13张

DeepSeek慷慨分享，新动向引猜测

说实话，真有点意外。如此高密度的信息，竟只是为一篇旧论文「打补丁」。

要知道，大多数期刊论文发表即结束，后续顶多勘误。

DeepSeek这次却直接塞入64页新内容。

且未作预告，全由网友自行发现。

那么，这些细节究竟是原本就有而暂未公开，还是团队为解答疑问而特意撰写？

无论哪种，如此细致的工程披露，无疑将R1的可复现性推上新台阶。

从时间点看也颇为耐人寻味。

R1补充材料沉寂近一年，偏偏在论文将满周年时放出，似乎在为R1画上句号。

难道……春节又有大动作？

R2，还是V4？

v2版论文链接：

https://arxiv.org/abs/2501.12948v2

免费服务器高防服务器性价比服务器

本文由主机测评网于2026-03-16发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：http://www.vpshk.cn/20260331785.html

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作

DeepSeek重磅补充64页技术细节

DeepSeek慷慨分享，新动向引猜测

v2版论文链接：

解锁苹果系统自由：从官方源制作macOS可引导ISO全攻略（小白零基础打造专属安装盘）

DeepSeek-R1论文更新至86页：开源模型以强化学习实现推理突破，成本仅29.4万美元

DeepSeek-R1论文更新64页技术细节，团队零流失引关注，春节或有新动作

DeepSeek重磅补充64页技术细节

DeepSeek慷慨分享，新动向引猜测

v2版论文链接：

解锁苹果系统自由：从官方源制作macOS可引导ISO全攻略（小白零基础打造专属安装盘）

DeepSeek-R1论文更新至86页：开源模型以强化学习实现推理突破，成本仅29.4万美元

相关文章