8月19日晚间,DeepSeek悄然发布了其全新的V3.1版本,引起了业界的广泛关注。
虽然官方强调此次更新增加了上下文长度至128k,但社区的深入探索揭示了更多变革:模型架构的演进和重点能力的微调,编程能力显著提升,成本优势再度显现。
然而,模型融合的技术路线引发了激烈讨论,部分用户反馈旧版模型的“顽疾”再现,更新评价呈现两极分化。
发布两天后,DeepSeek官方通过公众号分享了相关信息。
此时,正是我们细致分析V3.1“小更新”的良机。
尽管官方将上下文长度拓展至128k作为核心亮点,但V3版本早已支持此功能,只是接口限制在64K。
因此,更新的核心在于模型架构的进化。V3.1采用混合推理架构,同时支持思考模式与非思考模式。
在DeepSeek的网页和APP上,即使开启“深度思考”模式,模型标识也从“R1”统一为“V3”。
用户通过API调用时,模型明确标识为V3。与GPT-5不同,是否启用思考模式仍由用户控制。
尽管混合模型可能影响创意写作和情商表达等能力,但可简化部署和运维,提高算力利用效率。
V3.1不仅架构改变,编程能力也大幅提升。Aider编程基准测试数据显示其得分为71.6%,在开源模型中领先。
其表现不仅超越DeepSeek R1,还击败了强大的闭源模型Claude 4 Opus。
在SVGBench和MMLU等其他基准测试中,V3.1同样表现出色。在研究生级别问答和软件工程等领域,与GPT-5相比仍有一定差距。
在编程能力实战中,V3.1表现可圈可点但非完美。生成“黑客帝国风格”的three.js动态世界任务中,基本功能满足但细节实现不够精准,效果被评“80分”。
在成本效益上,V3.1也表现出色。完成同样编程任务仅需约1.01美元,远低于Claude 4 Opus(便宜68倍)。
根据官方宣布的价格表,输入价格为0.5元/百万 tokens(缓存命中)和4元/百万 tokens(缓存未命中),输出价格为12元/百万 tokens。
DeepSeek V3.1的Agent能力显著增强却未引起足够关注。这一提升源自底层搜索和工具调用能力的提升。
在发布中,官方强调通过Post-Training优化,新模型在工具使用与智能体任务中表现大幅提升。
在复杂的软件工程和终端控制任务上表现尤为突出,几乎实现跨越式进步。
在通用网页浏览和工具调用能力上也获得增强。Browsecomp测试中得分从R1-0528的8.9分提升至30.0分,Seal0基准得分从29.7提升至42.6。
尽管V3.1取得突破,但模型融合策略引发争议。阿里的Qwen模型尝试后分开发布,GPT-5则使用智能路由而非直接融合。
因强化学习优化导致模型在处理非严密逻辑任务时表现不佳。用户反馈V3.1重新出现幻觉严重和中英夹杂问题。
此外,模型在面对复杂问题时表现出“能省则省”的倾向。激进的更新策略也令商业API用户不满,担心影响业务稳定性。
本文由主机测评网于2026-04-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439942.html