8月21日,DeepSeek官方正式发布全新版本模型DeepSeek-V3.1,这一消息迅速在科技圈掀起波澜。
仅仅一小时内,该消息在X平台上的浏览热度就突破26万次,显示出极高的市场关注度。
根据官方介绍,DeepSeek-V3.1是一款创新型混合模型,支持“思考模式”与“非思考模式”的灵活切换,用户能够依据实际应用场景,动态调整推理深度,实现效率与性能的完美平衡。
借助深度优化的训练策略和大规模长文档扩展技术,DeepSeek-V3.1在推理速度、工具调用智能化、代码生成与数学问题求解等多个维度均取得显著突破。
接下来,让我们详细解读此次新版模型的几大核心亮点:
·混合思考模式:通过简单的对话模板切换,单一模型即可无缝支持思考与非思考两种运行模式。
·更智能的工具调用:经过后训练优化,模型在工具调用及完成智能体(Agent)任务方面的能力得到实质性提升。
·更高的思考效率:DeepSeek-V3.1-Think在回答质量上可与前代R1-0528相匹敌,同时响应速度大幅加快。
官方公布的测试数据表明,V3.1-Think在AIME 2025(美国数学邀请赛2025版)中得分88.4%,在GPQA Diamond(高难度研究生级知识问答数据集Diamond子集)中得分80.1%,在LiveCodeBench(实时编码基准)中得分74.8%,各项成绩均超越老模型R1-0528的87.5%、81.0%和73.3%。
值得注意的是,如下图所示(纵轴代表输出token数量),V3.1-Think的输出tokens数量显著减少。
这意味着:V3.1-Think相较于R1-0528,在消耗更少计算资源(tokens)的情况下,实现了相近甚至更高的准确率,展现出卓越的计算效率优势。
在软件工程与智能体任务基准测试中,性能提升更为明显:
·SWE-Bench Verified:DeepSeek-V3.1得分66.0%,远超V3-0324的45.4%和R1-0528的44.6%,证明其在处理复杂代码任务时更具可靠性。
·SWE-Bench Multilingual(多语言版本):DeepSeek-V3.1得分54.5%,大幅领先于V3-0324的29.3%和R1-0528的30.5%。这表明其多语言支持能力显著增强,很可能通过融入多样化训练数据实现,使其更适配全球化开发环境。
·Terminal-Bench(基于Terminus 1框架的基准测试,用于量化AI智能体在终端命令行环境中完成复杂任务的能力,如脚本执行、文件操作或系统交互,模拟真实工作流):DeepSeek-V3.1得分31.3%,优于V3-0324的13.3%和R1-0528的5.7%,显示出在智能体框架下的效率飞跃,非常适合自动化运维或DevOps应用场景。
需要强调的是,DeepSeek V3.1此次更新的核心在于大幅强化了模型的智能体能力,特别是在复杂推理和工具链协同场景中的实际应用表现。
此外,DeepSeek-V3.1在搜索智能体、长上下文理解、事实问答和工具使用等领域的性能同样表现强势。
DeepSeek-V3.1(基于MoE混合专家架构,总参数671B,激活参数37B)在多数基准测试中明显优于R1-0528,在搜索智能体和长上下文任务上的平均提升幅度约为20-300%,尤其在工具使用(如xbench-DeepSearch)和事实QA(如SimpleQA)中处于领先地位。这意味着它非常适合构建AI智能体应用,例如自动化搜索或代码辅助工具。
与R1-0528(专注于深度推理但效率相对较低)相比,DeepSeek-V3.1更注重速度与质量的均衡,标志着DeepSeek的“智能体时代”正式来临。
在Huggingface平台上,DeepSeek公布了更为详尽的评估结果。
根据官方提供的与前代模型的对比测评,DeepSeek-V3.1在常规推理和知识问答任务(如MMLU-Redux和MMLU-Pro)上,整体性能稳步提升,非思考与思考模式下的得分均高于V3旧版,基本达到行业顶尖大模型水准。
例如,在HLE(Humanity’s Last Exam,搜索+Python复合推理)任务中,DeepSeek-V3.1实现了29.8%的通过率,优于自家R1-0528版本(24.8%),并与GPT-5、Grok 4等国际一流大模型表现接近。
尽管不同大模型在评测细节上可能存在差异,但DeepSeek的表现依然极具竞争力。
新版模型在网页检索、复合搜索和工具协同场景(如BrowseComp、BrowseComp_zh、Humanity’s Last Exam Python+Search、SimpleQA)上实现了跨越式进步,中文网页搜索和多模态复合推理得分显著超越旧版本。在SWE-Bench Verified代码评测中,DeepSeek-V3.1以66.0%的成绩大幅领先前代(44.6%),并与Claude 4.1、Kimi K2等顶级模型保持同一水平。
在Terminal Bench终端自动化测试中,其得分也略微超过GPT-5和o3等知名竞争对手。
与此同时,DeepSeek-V3.1在代码生成和自动化评测(如LiveCodeBench、Codeforces-Div1、Aider-Polyglot、SWE Verified、Terminal-bench)方面,得分较前代均有显著提升,特别是在智能体模式下,代码任务通过率和自动化执行能力大幅增强。在AIME和HMMT等高级数学推理及竞赛任务上,DeepSeek-V3.1的表现优于前代产品,思考模式下的解题成功率明显提高。
不过作为一款通用对话模型,V3.1并未在所有维度上全面超越前代产品——在部分常规对话和知识问答场景中,R1-0528仍然保持一定的竞争力。
除了卓越的性能表现,DeepSeek发布新模型时,另一个备受外界瞩目的焦点自然是其定价策略。
这一次,DeepSeek再次给出了令人惊喜的答案。
输入API定价(Input API Price)分为两种情况:
·缓存命中(Cache Hit):0.07美元/百万tokens。
·缓存未命中(Cache Miss):0.56美元/百万tokens。
输出API定价(Output API Price)为1.68美元/百万tokens。
MenloVentures的风险投资人、前谷歌搜索团队成员Deedy也在X平台上发文惊叹“鲸鱼回来了”。(该博主拥有20万粉丝,是科技领域的知名意见领袖。)
除了极具竞争力的价格,DeepSeek-V3.1还首次实现了对Anthropic API的原生兼容。
这意味着,用户可以像调用Claude或Anthropic生态系统中的其他模型一样,轻松将DeepSeek集成到现有系统中。无论是通过Claude Code工具链还是直接使用Anthropic官方SDK,开发者只需配置相应的API地址和密钥,即可在所有支持Anthropic API的环境下,无缝使用DeepSeek-V3.1提供的强大推理和对话能力。
从目前的业界反馈来看,外界对此次发布的评价总体积极。尽管它并非旨在“拳打Grok4、脚踩GPT-5”的全面霸主型模型,但其拥有明确且清晰的技术侧重点与差异化优势。
更有趣的是,从两天前DeepSeek悄然发布V3.1-Base版本开始,网友们便再次惊叹于其发布节奏的稳健与行事风格的低调务实。
当其他模型发布往往倾向于先行炒作规格参数和性能数据时,DeepSeek却反其道而行之,直接开放模型文件供开发者即时下载测试,随后再补充技术细节。这种高效、以开发者为中心的做法,赢得了广泛赞誉。
本文由主机测评网于2025-12-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251212414.html