当前位置:首页 > 科技资讯 > 正文

DeepSeek-V3.1震撼发布:高效智能体能力引领AI新纪元

21日,DeepSeek官方宣布了一项重大更新:我们推出了最新版本模型DeepSeek-V3.1

消息一出,一个小时内在X平台上的浏览热度就飙升到了26万!

DeepSeek-V3.1震撼发布:高效智能体能力引领AI新纪元 DeepSeek-V3.1 智能体能力 混合思考模式 性能提升 第1张

据DeepSeek介绍,DeepSeek-V3.1是一款混合型模型,支持“思考模式”与“非思考模式”混合运行,用户可以根据具体需求,灵活切换推理深度,兼顾效率与性能。

通过深度优化的训练策略与大规模长文档扩展,DeepSeek-V3.1在推理速度、工具调用智能、代码和数学任务等方面均取得了显著进步。

让我们来梳理一下这次新版模型的几大亮点:

·混合思考模式:通过切换对话模板,单一模型即可兼容思考与非思考两种模式。

·更智能的工具调用:通过后训练优化,模型在调用工具和完成Agent(智能体)任务方面的表现显著提升。

·更高的思考效率:DeepSeek-V3.1-Think在回答质量上可与R1-0528媲美,同时响应速度更快。

A

官方测试结果显示,V3.1-Think在AIME 2025(美国数学邀请赛2025版)得分88.4%,GPQA Diamond(高难度研究生级知识问答数据集的Diamond子集)得分80.1%,LiveCodeBench(实时编码基准)得分74.8%,均优于老模型R1-0528的表现:87.5%、81.0%、73.3%。

而且,正如下图所示(纵轴代表输出token数),V3.1-Think的输出tokens大幅减少。

也就是说,V3.1-Think相较于老模型R1-0528,使用更少的tokens,达到了相似或略高的准确率,在计算资源优化上的优势显而易见。

DeepSeek-V3.1震撼发布:高效智能体能力引领AI新纪元 DeepSeek-V3.1 智能体能力 混合思考模式 性能提升 第2张

在软件工程和Agent任务基准上的性能提升方面:

·SWE-Bench Verified,DeepSeek-V3.1得分66.0%,远高于V3-0324的45.4%和R1-0528的44.6%,表明其在处理复杂代码任务时更可靠。

·SWE-Bench Multilingual(多语言版本),DeepSeek-V3.1得分54.5%,大幅领先V3-0324的29.3%和R1-0528的30.5%。说明其在多语言支持上有很大进步。

·Terminal-Bench(使用Terminus 1框架的基准),DeepSeek-V3.1得分31.3%,优于V3-0324的13.3%和R1-0528的5.7%,在Agent框架下的效率提升,适合自动化运维或DevOps应用。

DeepSeek-V3.1震撼发布:高效智能体能力引领AI新纪元 DeepSeek-V3.1 智能体能力 混合思考模式 性能提升 第3张

需要注意的是,DeepSeek V3.1的本次更新,核心在于显著增强了模型的智能体能力,尤其是在复杂推理和工具链协作场景下的实际表现。

此外,DeepSeek-V3.1在搜索Agent、长上下文理解、事实问答和工具使用等领域的性能也表现强势。

DeepSeek-V3.1(基于MoE架构,总参数671B,激活37B)在大多数基准上显著优于R1-0528,在搜索Agent和长上下文任务上的平均提升约20-30%,尤其在工具使用(如xbench-DeepSearch)和事实QA(如SimpleQA)中领先,这意味着它适合构建AI Agent应用。

DeepSeek-V3.1震撼发布:高效智能体能力引领AI新纪元 DeepSeek-V3.1 智能体能力 混合思考模式 性能提升 第4张

相比R1-0528(专注于推理但效率较低),DeepSeek-V3.1更注重平衡速度与质量,DeepSeek的“Agent时代” 正式拉开帷幕。

B

除了具体的性能表现外,DeepSeek发布新模型时,价格也是外界关注的焦点。

这次,DeepSeek也没有让大家失望。

DeepSeek-V3.1震撼发布:高效智能体能力引领AI新纪元 DeepSeek-V3.1 智能体能力 混合思考模式 性能提升 第5张

Input API Price(输入定价),分为两种情况:

·Cache Hit(缓存命中):只需支付$ 7/百万tokens。

·Cache Miss(缓存未命中):费用为$ 56/百万tokens。·Output API Price(输出定价)为$ 68/百万tokens。.

MenloVentures的风险投资人、前谷歌搜索团队成员Deedy也发推大呼“鲸鱼回来了”。

DeepSeek-V3.1震撼发布:高效智能体能力引领AI新纪元 DeepSeek-V3.1 智能体能力 混合思考模式 性能提升 第6张


除了价格亲民之外,DeepSeek-V3.1还首次实现了对Anthropic API的原生兼容。

这也意味着,用户可以像调用Claude或Anthropic生态的模型一样,将DeepSeek的集成进现有系统。无论是通过Claude Code工具链还是直接使用Anthropic官方SDK,开发者只需配置API地址和密钥,即可在所有支持Anthropic API的环境下,使用DeepSeek-V3.1提供的推理和对话能力。

从目前的反馈来看,外界对这次发布的反馈还是很好的。尽管它并非“拳打Grok4、脚踩GPT-5”的霸王龙,但它有明确的、清晰的侧重点与优势。

更有意思的是,从两天前DeepSeek默默发了V3.1-Base开始,网友已经再次惊叹于DeepSeek发模型的节奏之舒适、态度之低调。

在其他模型发布往往先炒作规格和性能数据的时候,DeepSeek反其道而行,直接放出模型文件让开发者立即下载测试,然后再补充细节。高效、开发者友好。