DeepSeek-V3.2可谓备受瞩目,然而,随着讨论的深入,一些bug逐渐浮出水面。
其中,一个老问题尤为突出:token的浪费。
据x@Hangslin提供的信息,DeepSeek-V3.2的Speciale版本在开源领域给闭源TOPs带来了不小的压力,但问题同样明显:
处理复杂任务时,消耗的token数量偏多,甚至可能产生“既长又错”的答案。
比如,解决同一问题,Gemini仅用2万个token,而Speciale则需7.7万个。
这究竟是何原因?
研究者指出,这其实是自DeepSeek-R1-Zero以来,DeepSeek系列模型一直存在的一个bug。
简而言之,问题出在GRPO算法上。
来自Sea AI Lab和新加坡国立大学等研究机构的学者认为,GRPO存在两个“隐藏偏见”。
长度偏见:错误答案越长,惩罚越轻。GRPO在计算奖励时考虑了“答案长度”,导致短的错误答案被罚得更重。
结果是:模型会故意生成“又长又错”的答案,看似在“认真推理”,实则是在“凑字数躲惩罚”。
难度偏见:过于简单或过于难的题目被过度关注。GRPO会根据“同一批题的得分标准差”调整权重。比如一道题所有人都做对(标准差小),或所有人都做错(标准差也小),这道题会被当成 “重点” 反复训练;而中等难度、有人对有人错的题(标准差大),反而被忽略。但实际训练中,中等难度的题才是提升能力的关键。
这项研究的核心作者Zichen Liu指出,DeepSeek-V3.2已经通过新的优势值计算方式修正了“难度偏见”(如下图红框所示)。
但仍有偏的长度规范项存在(如下图蓝框所示)。也就是说,“长度偏见”依旧存在。
实际上,这个问题在DeepSeek官方报告中也有所提及。
技术报告中,DeepSeek研究人员承认,对于DeepSeek-V3.2而言,token效率仍是一个挑战:通常,新推出的两个模型需要生成更长的轨迹,才能达到Gemini-3.0-Pro的输出质量。
而DeepSeek-V3.2-Speciale本身也放宽了RL的长度限制,允许模型生成极长的思维链,通过大量消耗token来进行深度自我修正和探索。
可以说它走的是一条“在超长上下文下持续扩展强化学习”的路线。
考虑到百万token的输出成本,DeepSeek-V3.2的价格仅为GPT-5的1/24,似乎尚可接受。
另外,也有网友指出,DeepSeek的128K上下文已很久没有更新。这与GPU资源有限也有一定关系。
你是否已使用DeepSeek-V3.2?体验如何?欢迎在评论区与我们分享~
[1]https://x.com/zzlccc/status/1995770284385992798
[2]https://api-docs.deepseek.com/news/news251201
本文由主机测评网于2026-05-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545592.html