当前位置:首页 > 科技资讯 > 正文

AI巨头春节大比拼:新模型争奇斗艳

谁能想到,一夜之间,国内三大AI巨头接连发布了自己的新模型?

DeepSeek、智谱和MiniMax纷纷亮相,给这个春节增添了不少AI爱好者的谈资。

在算力稀缺、同质化严重的当下,国产大模型正逐渐走向差异化:

有的专注于超长文本的记忆边界,有的致力于智能体的工程化落地,还有的则选择以轻量化、高效率进入企业级市场。

01 DeepSeek:百万级上下文定义长文本处理新标杆

沉寂已久的DeepSeek悄然在官网和移动端开启了新模型的灰度测试,尽管官方尚未发布正式技术文档,但社区普遍推测这是即将发布的DeepSeek-V4-Lite版本。

据称,该模型参数规模可能仅为200B左右,未使用DeepSeek与北大联合研发的Engram条件记忆机制。然而,通过实测我们发现其新版本的核心突破:100万(1M)token的超长上下文窗口。

AI巨头春节大比拼:新模型争奇斗艳 DeepSeek 智谱 MiniMax 国产大模型 第1张

这一参数远超前代版本及部分国内主流大模型的32K-128K限制,单次交互可处理相当于500页A4文档的文本量,适用于长文档分析、跨章节推理等生活场景。

超长上下文的实证检验:大海捞针

“大海捞针”测试是评估长文本能力的标准之一,通过在超长文本中插入特定信息,要求模型精准定位并回答相关问题。根据社区测试结果,DeepSeek新模型在100万token长度下仍能保持60%以上的准确率,表现优于同期测试的Gemini系列模型。

AI巨头春节大比拼:新模型争奇斗艳 DeepSeek 智谱 MiniMax 国产大模型 第2张

若上述测试真实可靠,则表明DeepSeek新模型不仅支持百万级上下文,还具备高水平的上下文利用率。

在技术社区中,另一测试者将自创世界观设定集的30个Markdown文件(约57万字节)上传给DeepSeek,并提出五类细节问题。模型对稀疏信息能准确定位并还原上下文,展现出可靠的细粒度信息检索能力。

能力边界:专注文本赛道

在“鹈鹕骑自行车”测试中,DeepSeek输出的矢量图形出现结构混乱与几何失真。这一测试要求模型生成稀有组合场景的SVG图像代码,结果显示模型在几何坐标、空间关系的代码生成任务上存在局限。

AI巨头春节大比拼:新模型争奇斗艳 DeepSeek 智谱 MiniMax 国产大模型 第3张

这一结果符合DeepSeek的技术定位:纯文本模型,专注于百万token级上下文的文本建模和信息压缩。

02 智谱:智能体工程化与算力紧缺的应对

如果说DeepSeek的轻量级模型是一次平A,那么智谱的GLM-5则是实打实的大招。几天前pony-alpha的出现及技术架构前瞻已表明智谱准备推出新产品。

智谱将其技术叙事从“Vibe Coding”推向“Agentic Engineering”,即从生成代码片段和前端Demo转向完成端到端的复杂系统性工程任务。

可靠性的飞跃

Artificial Analysis榜单显示,GLM-5在智能程度全球排名第四,编程能力全球第六,代理能力全球第三。

AI巨头春节大比拼:新模型争奇斗艳 DeepSeek 智谱 MiniMax 国产大模型 第4张 AI巨头春节大比拼:新模型争奇斗艳 DeepSeek 智谱 MiniMax 国产大模型 第5张 AI巨头春节大比拼:新模型争奇斗艳 DeepSeek 智谱 MiniMax 国产大模型 第6张

GLM-5的参数规模总量为744B,激活参数为40B,相比前代模型参数规模翻了一倍以上。首次集成DeepSeek的稀疏注意力机制(DSA),追求高效率同时维持长文本处理效果。

编程与代理能力的检验

AI巨头春节大比拼:新模型争奇斗艳 DeepSeek 智谱 MiniMax 国产大模型 第7张

在编程和代理能力测试中,GLM-5取得高分,达到开源模型领先水平。进行前端构建任务时成功率高达98%,后端重构和任务规划场景中成功率提升超过20%。

慷慨的开源与算力缺乏的困境

GLM-5性能强大且选择以MIT License协议完整开源,接入多个平台降低开发者使用门槛。然而,如此慷慨的开源举措与商业端资源紧缺形成鲜明对比。

AI巨头春节大比拼:新模型争奇斗艳 DeepSeek 智谱 MiniMax 国产大模型 第8张

官方宣布GLM-5在商用API层面仅对MAX套餐用户开放,Pro套餐用户在未来几天内可使用GLM-5,而Lite套餐用户尚无明确说明。工作人员坦承算力资源紧张,并发不足已持续一个月。

MiniMax:轻量级架构与效率优先

性价比vps云服务器