当前位置：首页 > 科技资讯 > 正文

DeepSeek-V3.2优化挑战：长思考版本Token效率问题暴露

主机测评网
科技资讯
2026-05-21
388

每当DeepSeek发布新的模型，总是能吸引业内的高度关注与广泛讨论，然而，这也常常伴随着对新模型潜在问题的曝光。

例如，有用户发现，DeepSeek模型在处理英文输入时，会意外地切换到使用中文，这显示出模型在跨语言处理上的不足。此外，DeepSeek对汉字的偏好也早已为人所知，'极'字Bug便是一个典型例子。

随着新模型DeepSeek-V3.2的发布，特别是其长思考版本（Speciale）的出现，研究者们又发现了需要优化的地方：Speciale在处理复杂任务时存在明显的Token消耗异常。

据多位研究者反馈，在相同任务上，Gemini只需消耗2万Token，而DeepSeek-V3.2 Speciale却使用了7.7万Token，才能达到类似的质量输出。这意味着，Speciale需要三倍以上的Token才能实现相同的效果。

此外，Speciale版本还存在输出内容冗长且最终仍出错的问题。这并非新问题，而是GRPO算法固有的缺陷。

DeepSeek-V3.2优化挑战：长思考版本Token效率问题暴露 DeepSeek-V3.2 Speciale Token效率 GRPO算法第1张

实际上，DeepSeek-V3.2在Token消耗方面的异常表现已经引起了不少用户与研究者的关注。有社区网友指出，Speciale版本虽然具备强大的推理能力，但在实际使用中Token消耗速度惊人，显著高于同类模型。他们建议，如果DeepSeek-V3.2 Speciale的生成速度能从当前的大约30tokens/s提升至100tokens/s左右，其综合可用性和使用体验都将得到大幅改善。

DeepSeek-V3.2优化挑战：长思考版本Token效率问题暴露 DeepSeek-V3.2 Speciale Token效率 GRPO算法第2张

独立分析AI模型和托管服务提供商Artificial Analysis表示：“DeepSeek V3.2在推理模式下比上一代更啰嗦。在运行AAII（Artificial Analysis Intelligence Index）基准测试时，输出Token消耗明显增加，达到8600万，而上一版本仅为6200万。”

DeepSeek-V3.2优化挑战：长思考版本Token效率问题暴露 DeepSeek-V3.2 Speciale Token效率 GRPO算法第3张

即使与Grok和Mistral对比，也明显看到DeepSeek V3.2输出Token的延迟。

DeepSeek-V3.2优化挑战：长思考版本Token效率问题暴露 DeepSeek-V3.2 Speciale Token效率 GRPO算法第4张

这种情况在DeepSeek的技术报告中也有提及，并进行了数据对比。报告显示，DeepSeek-V3.2-Speciale的token使用效率明显低于Gemini-3.0-Pro。

为了降低部署成本并减少推理时延，官方版DeepSeek-V3.2在训练过程中施加了更严格的token约束，以在性能与成本之间取得更优的权衡。DeepSeek研究者们表示，token效率仍将是未来一个至关重要的研究方向。

输出内容冗长且存在GRPO算法缺陷

GRPO算法随着DeepSeek的诞生成为强化学习的黄金范式，相信读者们早已不陌生。

我们曾对GRPO的基本原理进行过系统介绍，建议读者参考我们的科普文章。

早在今年三月份公开的论文《Understanding R1-Zero-Like Training: A Critical Perspective》中，来自Sea AI Lab和NUS等的研究者们揭示了GRPO算法的两大问题，认为GRPO会导致模型有偏置的优化。

DeepSeek-V3.2优化挑战：长思考版本Token效率问题暴露 DeepSeek-V3.2 Speciale Token效率 GRPO算法第5张

论文标题：Understanding R1-Zero-Like Training: A Critical Perspective

论文链接：https://arxiv.org/pdf/2503.20783

Github链接：https://github.com/sail-sg/understand-r1-zero

在DeepSeek-R1-Zero的训练过程中，就已有模型的响应长度在整个训练阶段持续增长的现象，而在DeepSeek-V3.2 Speciale中仍然存在。

以下公式是经典的GRPO损失函数，论文作者很贴心地用红色标出了影响优化过程的部分：

DeepSeek-V3.2优化挑战：长思考版本Token效率问题暴露 DeepSeek-V3.2 Speciale Token效率 GRPO算法第6张