当前位置:首页 > 科技资讯 > 正文

DeepSeek-V3.1-Terminus震撼发布:编程与搜索能力再升级

DeepSeek再度革新!

9月22日晚间,DeepSeek在其官方API平台推出了最新力作——DeepSeek-V3.1-Terminus模型(Terminus在拉丁语中意为终点、界限),并很快宣布该模型将开源。

据官方文档介绍,DeepSeek-V3.1-Terminus在维持原有模型能力的基础上,改进了语言一致性、偶发异常字符等Bug,并进一步优化编程和搜索智能体的表现。

DeepSeek-V3.1-Terminus震撼发布:编程与搜索能力再升级 DeepSeek-V3.1-Terminus 编程能力 搜索智能体 开源 第1张

DeepSeek官方通过微信公众号发布了新旧DeepSeek-V3.1的基准测试对比。结果显示,在非Agent类的基准测试中,DeepSeek-V3.1-Terminus相较于DeepSeek-V3.1实现了0.2%-36.5%的性能提升,但部分测试成绩略有下滑。

在HLE(人类终极测试)中,DeepSeek-V3.1-Terminus的表现尤为突出,该测试主要考察专家级高难度知识、模型的多模态和深度推理能力。

DeepSeek-V3.1-Terminus震撼发布:编程与搜索能力再升级 DeepSeek-V3.1-Terminus 编程能力 搜索智能体 开源 第2张

而在Agent测评中,DeepSeek-V3.1-Terminus在网页浏览、简单问答和多项编程测试中的表现也实现了小幅提升。

目前,DeepSeek官方App、网页端、小程序以及API模型均已同步更新为DeepSeek-V3.1-Terminus。智东西第一时间体验了DeepSeek-V3.1-Terminus的API,尝试复现之前的多个Bug,并感受其最新性能。

开源地址:

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

两大神秘Bug消失,DeepSeek-V3.1更加稳定

今年8月,DeepSeek-V3.1上线后,有用户反馈称在使用API调用模型时,偶尔会出现一个严重Bug:模型会随机输出“极”、“極”、“extreme”等字样,影响日常使用。如果未仔细检查就使用含有这一Bug的代码,可能导致编译失败。

DeepSeek-V3.1-Terminus震撼发布:编程与搜索能力再升级 DeepSeek-V3.1-Terminus 编程能力 搜索智能体 开源 第3张

智东西测试了最新的DeepSeek-V3.1-Terminus API,尝试复现上述问题。据称能复现这一问题的“高危”提示词包括要求模型写Go语言、完成版本号相关任务、处理时间等。

然而,在测试中DeepSeek-V3.1-Terminus并未因上述提示词出现Bug,这意味着这一问题应该已被修复。

DeepSeek-V3.1-Terminus震撼发布:编程与搜索能力再升级 DeepSeek-V3.1-Terminus 编程能力 搜索智能体 开源 第4张

也有海外用户反映,之前的DeepSeek-V3.1存在多语言问题,尤其是在翻译小语种时。有Reddit网友分享称,DeepSeek会将中、英、俄三种语言混用,问题文本比例有时高达5%。

DeepSeek-V3.1-Terminus震撼发布:编程与搜索能力再升级 DeepSeek-V3.1-Terminus 编程能力 搜索智能体 开源 第5张

智东西让DeepSeek-V3.1-Terminus翻译了这句话:“人工智能正在改变我们的世界,它带来了巨大的机遇,也需要我们认真思考其挑战。”测试结果显示,DeepSeek-V3.1-Terminus的回答没有出现语言混杂问题,这一Bug也被成功修复。

编程与搜索能力双提升,效果惊艳

除了Bug修复外,DeepSeek-V3.1-Terminus的编程和搜索智能体能力也大幅提升。

在编程任务上,智东西让DeepSeek-V3.1-Terminus尝试了小球弹跳效果。结果显示,模型输出的网页风格简约,但模拟的重力、摩擦力效果十分逼真。这要求模型不仅具备强大的编程能力,还需理解物理学原理。

DeepSeek-V3.1-Terminus震撼发布:编程与搜索能力再升级 DeepSeek-V3.1-Terminus 编程能力 搜索智能体 开源 第6张

该模型打造的动画效果也不错,轨迹和碰撞都较为自然:

DeepSeek-V3.1-Terminus震撼发布:编程与搜索能力再升级 DeepSeek-V3.1-Terminus 编程能力 搜索智能体 开源 第7张

在搜索智能体能力测试中,我们让DeepSeek-V3.1-Terminus推荐了几款适合新手阳台盆栽的植物。这一测试旨在考察模型能否找出完全符合“阳台盆栽”、“生长快”、“可生食”、“对儿童安全”所有条件的植物。同时,模型还需交叉验证信息可靠性并进行整合提炼与风险提示。

结果显示,DeepSeek-V3.1-Terminus给出的答案非常周全,经人工核查事实无误且可读性良好。

结语:DeepSeek系列新篇章

“Terminus”在拉丁语中意为“终点”或“界限”。我们尝试让DeepSeek自己对这一命名进行解读。据称,这一命名可能象征着DeepSeek-V3.1是该系列架构的终极版本,代表着当前技术路径的成熟与完善。