DeepSeek-V3.2自发布以来备受瞩目,然而随着用户深入使用,一个隐藏的bug逐渐浮出水面。
这一问题并不新鲜——它依旧是关于token的浪费。
图源:x@Hangslin
许多用户反馈,DeepSeek-V3.2的长思考增强版Speciale虽以开源姿态给闭源巨头带来了压力,但其短板同样突出:
处理复杂任务时,token消耗量明显偏高,甚至出现“又长又错”的回答。
例如,在解决同一问题时,Gemini仅耗费2万token,而Speciale却需要高达7.7万token。
这背后的原因究竟是什么?
研究人员指出,这一问题自DeepSeek-R1-Zero起便存在于DeepSeek系列模型中,堪称一个长期“bug”。
简而言之,根源在于GRPO算法的设计。
来自Sea AI Lab、新加坡国立大学等机构的研究者认为,GRPO存在两种“隐藏偏见”。
长度偏见:错误答案越长,所受惩罚反而越轻
GRPO在计算奖励时,会将“答案长度”纳入考量,导致短而错误的答案受到更严厉的惩罚。
最终结果:模型倾向于生成“冗长但错误”的答案,表面上看似在“认真推理”,实则是在“堆砌字数以规避惩罚”。
难度偏见:过于简单或困难的题目被过度关注
GRPO根据“同一批次题目得分的标准差”来调整权重。例如,若一道题所有人都答对(标准差小)或所有人都答错(标准差也小),该题就会被当作“重点”反复训练;而那些中等难度、有人对有人错的题目(标准差大)反而被忽视。然而在实际训练中,中等难度的题目才是提升能力的关键。
该研究的核心作者Zichen Liu指出,DeepSeek-V3.2已通过新的优势值计算方式修正了“难度偏见”(如下图红框所示)。
但仍有偏的长度规范项被保留(如下图蓝框所示)。换言之,“长度偏见”依然存在。
实际上,DeepSeek官方报告也提到了这个问题。
技术报告中,DeepSeek研究人员坦言,token效率对DeepSeek-V3.2来说仍是一大挑战:通常情况下,新发布的两个模型需要生成更长的轨迹,才能达到Gemini-3.0-Pro的输出质量。
而DeepSeek-V3.2-Speciale更是特意放宽了RL的长度限制,允许模型生成极长的思维链,旨在通过大量消耗token实现深度的自我修正和探索。
可以说,这是一条“在超长上下文下持续扩展强化学习”的路线。
考虑到百万token的输出成本,DeepSeek-V3.2的价格仅为GPT-5的1/24,似乎仍在可接受范围内。
此外,有网友指出,DeepSeek的128K上下文限制已很久未更新,这可能与GPU资源有限有关。
你是否已经体验过DeepSeek-V3.2?感受如何,欢迎在评论区分享你的看法~
[1]https://x.com/zzlccc/status/1995770284385992798
[2]https://api-docs.deepseek.com/news/news251201
本文由主机测评网于2026-02-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260227358.html