当前位置：首页 > 科技资讯 > 正文

DeepSeek-V3.1震撼登场：混合思考模式重塑AI智能体格局

主机测评网
科技资讯
2025-12-25
450

8月21日，DeepSeek官方正式发布全新版本模型DeepSeek-V3.1，这一消息迅速在科技圈掀起波澜。

仅仅一小时内，该消息在X平台上的浏览热度就突破26万次，显示出极高的市场关注度。

DeepSeek-V3.1震撼登场：混合思考模式重塑AI智能体格局 DeepSeek-V3.1 混合思考模式工具调用智能 API定价策略第1张

根据官方介绍，DeepSeek-V3.1是一款创新型混合模型，支持“思考模式”与“非思考模式”的灵活切换，用户能够依据实际应用场景，动态调整推理深度，实现效率与性能的完美平衡。

借助深度优化的训练策略和大规模长文档扩展技术，DeepSeek-V3.1在推理速度、工具调用智能化、代码生成与数学问题求解等多个维度均取得显著突破。

接下来，让我们详细解读此次新版模型的几大核心亮点：

·混合思考模式：通过简单的对话模板切换，单一模型即可无缝支持思考与非思考两种运行模式。

·更智能的工具调用：经过后训练优化，模型在工具调用及完成智能体（Agent）任务方面的能力得到实质性提升。

·更高的思考效率：DeepSeek-V3.1-Think在回答质量上可与前代R1-0528相匹敌，同时响应速度大幅加快。

性能表现全面突破

官方公布的测试数据表明，V3.1-Think在AIME 2025（美国数学邀请赛2025版）中得分88.4%，在GPQA Diamond（高难度研究生级知识问答数据集Diamond子集）中得分80.1%，在LiveCodeBench（实时编码基准）中得分74.8%，各项成绩均超越老模型R1-0528的87.5%、81.0%和73.3%。

值得注意的是，如下图所示（纵轴代表输出token数量），V3.1-Think的输出tokens数量显著减少。

这意味着：V3.1-Think相较于R1-0528，在消耗更少计算资源（tokens）的情况下，实现了相近甚至更高的准确率，展现出卓越的计算效率优势。

DeepSeek-V3.1震撼登场：混合思考模式重塑AI智能体格局 DeepSeek-V3.1 混合思考模式工具调用智能 API定价策略第2张

在软件工程与智能体任务基准测试中，性能提升更为明显：

·SWE-Bench Verified：DeepSeek-V3.1得分66.0%，远超V3-0324的45.4%和R1-0528的44.6%，证明其在处理复杂代码任务时更具可靠性。

·SWE-Bench Multilingual（多语言版本）：DeepSeek-V3.1得分54.5%，大幅领先于V3-0324的29.3%和R1-0528的30.5%。这表明其多语言支持能力显著增强，很可能通过融入多样化训练数据实现，使其更适配全球化开发环境。

·Terminal-Bench（基于Terminus 1框架的基准测试，用于量化AI智能体在终端命令行环境中完成复杂任务的能力，如脚本执行、文件操作或系统交互，模拟真实工作流）：DeepSeek-V3.1得分31.3%，优于V3-0324的13.3%和R1-0528的5.7%，显示出在智能体框架下的效率飞跃，非常适合自动化运维或DevOps应用场景。

DeepSeek-V3.1震撼登场：混合思考模式重塑AI智能体格局 DeepSeek-V3.1 混合思考模式工具调用智能 API定价策略第3张

需要强调的是，DeepSeek V3.1此次更新的核心在于大幅强化了模型的智能体能力，特别是在复杂推理和工具链协同场景中的实际应用表现。

此外，DeepSeek-V3.1在搜索智能体、长上下文理解、事实问答和工具使用等领域的性能同样表现强势。

DeepSeek-V3.1（基于MoE混合专家架构，总参数671B，激活参数37B）在多数基准测试中明显优于R1-0528，在搜索智能体和长上下文任务上的平均提升幅度约为20-300%，尤其在工具使用（如xbench-DeepSearch）和事实QA（如SimpleQA）中处于领先地位。这意味着它非常适合构建AI智能体应用，例如自动化搜索或代码辅助工具。

DeepSeek-V3.1震撼登场：混合思考模式重塑AI智能体格局 DeepSeek-V3.1 混合思考模式工具调用智能 API定价策略第4张

与R1-0528（专注于深度推理但效率相对较低）相比，DeepSeek-V3.1更注重速度与质量的均衡，标志着DeepSeek的“智能体时代”正式来临。

在Huggingface平台上，DeepSeek公布了更为详尽的评估结果。

根据官方提供的与前代模型的对比测评，DeepSeek-V3.1在常规推理和知识问答任务（如MMLU-Redux和MMLU-Pro）上，整体性能稳步提升，非思考与思考模式下的得分均高于V3旧版，基本达到行业顶尖大模型水准。

例如，在HLE（Humanity’s Last Exam，搜索+Python复合推理）任务中，DeepSeek-V3.1实现了29.8%的通过率，优于自家R1-0528版本（24.8%），并与GPT-5、Grok 4等国际一流大模型表现接近。

DeepSeek-V3.1震撼登场：混合思考模式重塑AI智能体格局 DeepSeek-V3.1 混合思考模式工具调用智能 API定价策略第5张

尽管不同大模型在评测细节上可能存在差异，但DeepSeek的表现依然极具竞争力。

新版模型在网页检索、复合搜索和工具协同场景（如BrowseComp、BrowseComp_zh、Humanity’s Last Exam Python+Search、SimpleQA）上实现了跨越式进步，中文网页搜索和多模态复合推理得分显著超越旧版本。在SWE-Bench Verified代码评测中，DeepSeek-V3.1以66.0%的成绩大幅领先前代（44.6%），并与Claude 4.1、Kimi K2等顶级模型保持同一水平。

在Terminal Bench终端自动化测试中，其得分也略微超过GPT-5和o3等知名竞争对手。

DeepSeek-V3.1震撼登场：混合思考模式重塑AI智能体格局 DeepSeek-V3.1 混合思考模式工具调用智能 API定价策略第6张

与此同时，DeepSeek-V3.1在代码生成和自动化评测（如LiveCodeBench、Codeforces-Div1、Aider-Polyglot、SWE Verified、Terminal-bench）方面，得分较前代均有显著提升，特别是在智能体模式下，代码任务通过率和自动化执行能力大幅增强。在AIME和HMMT等高级数学推理及竞赛任务上，DeepSeek-V3.1的表现优于前代产品，思考模式下的解题成功率明显提高。

不过作为一款通用对话模型，V3.1并未在所有维度上全面超越前代产品——在部分常规对话和知识问答场景中，R1-0528仍然保持一定的竞争力。

定价策略与生态兼容

除了卓越的性能表现，DeepSeek发布新模型时，另一个备受外界瞩目的焦点自然是其定价策略。

这一次，DeepSeek再次给出了令人惊喜的答案。

DeepSeek-V3.1震撼登场：混合思考模式重塑AI智能体格局 DeepSeek-V3.1 混合思考模式工具调用智能 API定价策略第7张

输入API定价（Input API Price）分为两种情况：

·缓存命中（Cache Hit）：0.07美元/百万tokens。

·缓存未命中（Cache Miss）：0.56美元/百万tokens。

输出API定价（Output API Price）为1.68美元/百万tokens。

MenloVentures的风险投资人、前谷歌搜索团队成员Deedy也在X平台上发文惊叹“鲸鱼回来了”。（该博主拥有20万粉丝，是科技领域的知名意见领袖。）

DeepSeek-V3.1震撼登场：混合思考模式重塑AI智能体格局 DeepSeek-V3.1 混合思考模式工具调用智能 API定价策略第8张

除了极具竞争力的价格，DeepSeek-V3.1还首次实现了对Anthropic API的原生兼容。

这意味着，用户可以像调用Claude或Anthropic生态系统中的其他模型一样，轻松将DeepSeek集成到现有系统中。无论是通过Claude Code工具链还是直接使用Anthropic官方SDK，开发者只需配置相应的API地址和密钥，即可在所有支持Anthropic API的环境下，无缝使用DeepSeek-V3.1提供的强大推理和对话能力。

DeepSeek-V3.1震撼登场：混合思考模式重塑AI智能体格局 DeepSeek-V3.1 混合思考模式工具调用智能 API定价策略第9张