当前位置:首页 > 科技资讯 > 正文

AI巨头新春大比拼:国产大模型差异化发展

谁能想到,仅一夜之间,国内三大AI巨头接连发布了自己的新模型?

DeepSeek、智谱和MiniMax无缝衔接上演了这出好戏,AI爱好者们在这个春节可是有的忙了。

在算力资源有限、同质化加剧的当下,国产大模型逐渐走上差异化的路径:

有人押注超长文本的记忆边界,有人攻坚智能体的工程化落地,也有人选择以轻量和效率闯进企业级市场。

01 DeepSeek:百万级上下文定义长文本处理边界

首先是产品端沉寂已久但全球万众瞩目的DeepSeek悄悄在官网和移动端开启了新模型的灰度测试。

尽管官方尚未发布正式技术文档,但社区普遍推测该模型可能是即将发布的DeepSeek-V4-Lite版本。

根据目前流传的消息,该模型的参数规模可能只有200B左右,且并未使用DeepSeek与北大联合研发的Engram条件记忆机制。

不过,我们仍然可以在简单的实测中发现新版本的核心突破:100万(1M)token的超长上下文窗口。

AI巨头新春大比拼:国产大模型差异化发展 DeepSeek 智谱 MiniMax 国产大模型 第1张

这一参数已经远超前代版本以及部分国内主流大模型32K-128K的限制,单次交互可以处理相当于500页A4文档的文本量,能够处理长文档分析跨章节推理等生活中频繁应用的场景。

超长上下文的实证检验:大海捞针

“大海捞针”测试是AI界评估长文本能力的行业标准方法之一,通过在超长文本中随机插入特定信息,要求模型精准定位并回答相关问题,以此检验上下文窗口的实际有效性。

AI巨头新春大比拼:国产大模型差异化发展 DeepSeek 智谱 MiniMax 国产大模型 第2张

根据技术社区的测试结果,DeepSeek的新模型在100万token长度下仍然能够保持60%以上的准确率,准确率曲线在20万token以内近乎水平,此后才开始出现较为平缓的衰减,优于同期测试的Gemini系列模型。

若上述测试结果真实可靠,则表明DeepSeek的新模型不仅确实支持百万级上下文,还具备较高水平的有效上下文利用率。模型能够真正理解并利用超长文本中的信息,而不仅仅是技术层面上的信息接收。

能力边界:专注文本赛道

在经典的“鹈鹕骑自行车”测试中,DeepSeek输出的矢量图形出现了结构混乱与几何失真的现象。

AI巨头新春大比拼:国产大模型差异化发展 DeepSeek 智谱 MiniMax 国产大模型 第3张

这一测试要求模型在零样本的情况下生成稀有组合场景的SVG图像代码,检验模型对结构化语言的精确控制能力。

而结果表明,模型在涉及几何坐标、空间关系的代码生成任务上存在局限。

这个结果与DeepSeek的技术定位直接相关,并不出人意料:和前代版本一样,新模型延续了纯文本模型的定位,研发重心都放在了百万token级上下文的文本建模和信息压缩,而非跨模态的视觉结构推理或精确代码生成。

02 智谱:智能体工程化与算力紧缺的现实

如果说DeepSeek放出来的轻量级模型是一次平A,那么紧随其后发布GLM-5的智谱就是实打实放出了大招。

GLM-5的发布其实并不意外,几天前pony-alpha的出现以及技术架构的前瞻(GLM-5架构细节浮出水面:DeepSeek仍是绕不开的门槛)都表明智谱已做好推出新产品的准备。