当前位置:首页 > 科技资讯 > 正文

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代

DeepSeek-V3.1已经正式发布,作为业界首款采用“混合推理”技术的模型,它开启了智能体新时代的序幕。新模型总计拥有671B参数,在编码能力上全面超越DeepSeek-R1和Claude 4 Opus,荣登编程开源排行榜首位。

官方宣布,DeepSeek正式推出DeepSeek-V3.1,这被视为迈向智能体时代的关键一步。

新版V3.1引入了创新的“混合推理”机制,一个模型具备两种模式:思考模式与非思考模式,能够根据任务需求自主切换。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第1张

与DeepSeek-R1-0528相比,DeepSeek-V3.1的思考模式在推理速度上表现更快。

最重要的是,V3.1具备了卓越的智能体能力,无论是工具使用还是多步骤复杂任务,都能轻松应对。

在软件工程基准测试中,DeepSeek-V3.1在所有方面都超越了V3-0324和R1-0528。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第2张

在人类水平考试HLE中,V3.1获得了29.8的高分,同时在数学、知识问答和编程等任务中,全面超越了推理模型R1。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第3张

经过CoT压缩训练后,V3.1-Think模式在输出token上减少了20%至50%,与R1-0528性能相当。

在Hugging Face平台上,开源了两款模型:V3.1 Base和V3.1。前者在V3基础上进行了8400亿token的持续预训练,并扩展了上下文支持能力。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第4张

项目地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Basehttps://huggingface.co/deepseek-ai/DeepSeek-V3.1

总体而言,DeepSeek-V3.1此次更新的核心亮点包括:

参数规模达到671B,激活参数为37B,上下文长度支持128k。

混合推理模式:单一模型即可支持推理和非推理两种模式。

更强大的工具调用能力:在工具使用和智能体任务方面有显著提升,多步推理能力增强,能处理复杂搜索。

更高的推理效率:回答质量与DeepSeek-R1-0528相当,但思考效率大幅提升,响应速度更快。

全面基准测试表现:在各项测试中全面超越DeepSeek-R1-0528和DeepSeek-V3-0324。

在API方面,deepseek-chat对应非思考模式,deepseek-reasoner对应思考模式,均支持128k上下文。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第5张

从9月5日开始,将采用新的API定价策略。

继OpenAI发布gpt-oss之后,DeepSeek此次推出了强有力的回应。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第6张

V3.1编程能力击败Claude 4,训练规模扩增10倍

HF模型卡中提供了DeepSeek新模型技术的详细解读。

DeepSeek-V3.1基于DeepSeek-V3.1-Base通过后训练优化完成,而V3.1-Base则是在V3模型基础上训练而来。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第7张

具体而言,它采用“两阶段长上下文扩展策略”构建,遵循了原始V3论文中的方法。

研究团队进一步扩展了数据集,收集了更多长文档,并大幅增加了两个训练阶段的规模。

32k扩展阶段规模增加了10倍,达到6300亿Token,而128k扩展阶段增加了3.3倍,达到2090亿Token。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第8张

此外,DeepSeek-V3.1采用UE8M0 FP8缩放数据格式进行训练,确保与微尺度数据格式的兼容性。

在通用能力基准测试中,开启思考模式的V3.1在MMLU和GPQA上取得了优异成绩。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第9张

在数学领域,V3.1同样刷新了最高纪录,创下了新的SOTA分数。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第10张

如上所述,V3.1是迈向智能体时代的第一步。它支持多种Code Agent框架,开发者可自行搭建智能体。

在编码测试中,DeepSeek-V3.1的思考模式在Aider编码测试中获得了76.3%的高分,远超Claude 4 Opus和Gemini 2.5 Pro(0325)。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第11张

在编码智能体测试中,DeepSeek-V3.1的非思考模式性能全面碾压R1和V3。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第12张

此外,DeepSeek-V3.1支持搜索智能体,在推理模式下可使用。

当遇到需要外部信息或最新信息的复杂问题时,V3.1可以通过多轮工具调用流程,利用用户提供的搜索工具来完成。

在基准测试中,尤其是在BrowseComp上,V3.1的表现彻底超越了R1。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第13张

第三方Artificial Analysis基准同样验证了DeepSeek-V3.1的强大实力,仅次于gpt-oss。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第14张

在推理效率方面,V3.1与OpenAI模型相当。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第15张

目前来看,DeepSeek-V3.1稳固占据了编程开源第一的位置。

DeepSeek-V3.1正式发布:混合推理模型开启智能体新时代 DeepSeek-V3.1 混合推理 智能体 编程开源第一 第16张

参考资料:

https://x.com/karminski3/status/1958429843558945015   

https://x.com/deepseek_ai/status/1958417062008918312