谁能想到,仅一夜之间,国内三大AI巨头接连发布了自己的新模型?
DeepSeek、智谱和MiniMax无缝衔接上演了这出好戏,AI爱好者们在这个春节可是有的忙了。
在算力资源有限、同质化加剧的当下,国产大模型逐渐走上差异化的路径:
有人押注超长文本的记忆边界,有人攻坚智能体的工程化落地,也有人选择以轻量和效率闯进企业级市场。
首先是产品端沉寂已久但全球万众瞩目的DeepSeek悄悄在官网和移动端开启了新模型的灰度测试。
尽管官方尚未发布正式技术文档,但社区普遍推测该模型可能是即将发布的DeepSeek-V4-Lite版本。
根据目前流传的消息,该模型的参数规模可能只有200B左右,且并未使用DeepSeek与北大联合研发的Engram条件记忆机制。
不过,我们仍然可以在简单的实测中发现新版本的核心突破:100万(1M)token的超长上下文窗口。
这一参数已经远超前代版本以及部分国内主流大模型32K-128K的限制,单次交互可以处理相当于500页A4文档的文本量,能够处理长文档分析、跨章节推理等生活中频繁应用的场景。
超长上下文的实证检验:大海捞针
“大海捞针”测试是AI界评估长文本能力的行业标准方法之一,通过在超长文本中随机插入特定信息,要求模型精准定位并回答相关问题,以此检验上下文窗口的实际有效性。
根据技术社区的测试结果,DeepSeek的新模型在100万token长度下仍然能够保持60%以上的准确率,准确率曲线在20万token以内近乎水平,此后才开始出现较为平缓的衰减,优于同期测试的Gemini系列模型。
若上述测试结果真实可靠,则表明DeepSeek的新模型不仅确实支持百万级上下文,还具备较高水平的有效上下文利用率。模型能够真正理解并利用超长文本中的信息,而不仅仅是技术层面上的信息接收。
在经典的“鹈鹕骑自行车”测试中,DeepSeek输出的矢量图形出现了结构混乱与几何失真的现象。
这一测试要求模型在零样本的情况下生成稀有组合场景的SVG图像代码,检验模型对结构化语言的精确控制能力。
而结果表明,模型在涉及几何坐标、空间关系的代码生成任务上存在局限。
这个结果与DeepSeek的技术定位直接相关,并不出人意料:和前代版本一样,新模型延续了纯文本模型的定位,研发重心都放在了百万token级上下文的文本建模和信息压缩,而非跨模态的视觉结构推理或精确代码生成。
如果说DeepSeek放出来的轻量级模型是一次平A,那么紧随其后发布GLM-5的智谱就是实打实放出了大招。
GLM-5的发布其实并不意外,几天前pony-alpha的出现以及技术架构的前瞻(GLM-5架构细节浮出水面:DeepSeek仍是绕不开的门槛)都表明智谱已做好推出新产品的准备。
本文由主机测评网于2026-04-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436200.html