当前位置：首页 > 科技资讯 > 正文

DeepSeek-V3.2的“长度偏见”：长答案躲惩罚

主机测评网
科技资讯
2026-05-20
512

DeepSeek-V3.2可谓备受瞩目，然而，随着讨论的深入，一些bug逐渐浮出水面。

其中，一个老问题尤为突出：token的浪费。

DeepSeek-V3.2的“长度偏见”：长答案躲惩罚 DeepSeek-V3.2 GRPO算法长度偏见难度偏见第1张

据x@Hangslin提供的信息，DeepSeek-V3.2的Speciale版本在开源领域给闭源TOPs带来了不小的压力，但问题同样明显：

处理复杂任务时，消耗的token数量偏多，甚至可能产生“既长又错”的答案。

比如，解决同一问题，Gemini仅用2万个token，而Speciale则需7.7万个。

DeepSeek-V3.2的“长度偏见”：长答案躲惩罚 DeepSeek-V3.2 GRPO算法长度偏见难度偏见第2张

这究竟是何原因？

未修正的“长度偏见”

研究者指出，这其实是自DeepSeek-R1-Zero以来，DeepSeek系列模型一直存在的一个bug。

DeepSeek-V3.2的“长度偏见”：长答案躲惩罚 DeepSeek-V3.2 GRPO算法长度偏见难度偏见第3张

简而言之，问题出在GRPO算法上。

来自Sea AI Lab和新加坡国立大学等研究机构的学者认为，GRPO存在两个“隐藏偏见”。

长度偏见：错误答案越长，惩罚越轻。GRPO在计算奖励时考虑了“答案长度”，导致短的错误答案被罚得更重。

结果是：模型会故意生成“又长又错”的答案，看似在“认真推理”，实则是在“凑字数躲惩罚”。

难度偏见：过于简单或过于难的题目被过度关注。GRPO会根据“同一批题的得分标准差”调整权重。比如一道题所有人都做对（标准差小），或所有人都做错（标准差也小），这道题会被当成 “重点” 反复训练；而中等难度、有人对有人错的题（标准差大），反而被忽略。但实际训练中，中等难度的题才是提升能力的关键。

这项研究的核心作者Zichen Liu指出，DeepSeek-V3.2已经通过新的优势值计算方式修正了“难度偏见”（如下图红框所示）。

但仍有偏的长度规范项存在（如下图蓝框所示）。也就是说，“长度偏见”依旧存在。

DeepSeek-V3.2的“长度偏见”：长答案躲惩罚 DeepSeek-V3.2 GRPO算法长度偏见难度偏见第4张