距离春节仅剩一周,根据过往经验,这意味着国产AI新产品的热潮即将来临。
Kimi K2.5在OpenRouter上独占鳌头,Minimax也在官网隐约透露出M2.2的代号。
大家翘首以盼,智谱和DeepSeek年前是否会有大动作?
果不其然,短短48小时内,三个独立技术平台相继出现与智谱新模型GLM-5相关的线索,构成了一条完整的信息链。
2月7日,OpenRouter平台悄然上线了一款代号为“pony-alpha”的模型。
经实际测试,其思维链风格与智谱的GLM系列高度一致,例如:
面对常规回答,它会以“嗯,……”为开头思考;
面对知识检索任务,会分点列出“1.分析请求:……”;
遇到代码任务,则会明确标注“用户要求……”。
技术社区将这一模型投入实际开发后,发现它在贪吃蛇、Minecraft等复杂代码生成任务中表现稳健,但缺乏图像等多模态输入支持。
紧接着的2月9日,vLLM推理框架仓库出现了编号为34124的pull request,代码中首次明确出现“GLM-5”标识。
更重要的是,代码显示其实现逻辑直接复用了DeepSeek-V3系列模型采用的DSA(DeepSeek Sparse Attention,稀疏注意力)机制,并集成了MTP(Multi-Token Prediction,多标记预测)技术。
几乎同时,Hugging Face transformers仓库合并了编号为43858的pull request,正式引入了智谱的GlmMoeDsa架构。
代码显示,GLM-5采用78层Transformer解码器,前三层为稠密(Dense)结构,第四层及以后采用混合专家(MoE)架构,共配置256个专家网络,处理单个token时激活其中8个,并辅以1个共享专家以保证基础能力稳定。
GLM-5的上下文窗口进一步扩展至202K,词表规模为154880,相比前代GLM-4.7提升有限。
过去两年里,规模化法则(Scaling Law)的正确性已得到充分验证。
前段时间备受好评的Kimi-K2.5也凭借国产模型中少有的1T参数量证明了“大就是好”。
然而,智谱创始人唐杰在2026年的AGI Next峰会上提出了不同看法:
单纯的模型扩展虽为提升智能的有效路径,但本质上是最轻松的偷懒方式。
回顾即将诞生的GLM-5,若根据社区透露的现有信息来看,其技术路线已明显呈现“效率优先”导向,而非继续堆砌参数。
首先是混合专家(MoE)架构,在如今的AI时代已不陌生。它将模型参数分散至多个专业化的子网络(即“专家”),推理时仅调用与任务最相关的少数专家。
GLM-5采用“256专家+8激活”配置,在维持更大规模参数总量的同时,单次推理仅调用约3%的参数,有效控制了计算成本和响应延迟。
前3层保留稠密结构以确保模型具备基础语言理解能力的稳定性,避免稀疏化带来的表征断裂风险。
其次是智谱选择了已被DeepSeek验证的稀疏注意力机制(DSA),而非自行研发同类机制。
前面已提及,GLM-5对DSA的集成属于架构复用。代码中明确显示GLM-5中的“GlmMoeDsaForCausalLM”类直接继承自“DeepseekV2ForCausalLM”。
基于社区测试和技术架构推演的结果,我们大致可以确认:
GLM-5在代码生成和逻辑推理两个场景具有优势和竞争力。
“pony-alpha”在Minecraft这一复杂项目中展现的代码能力,结合对DSA等DeepSeek经典技术的复用,使GLM-5在软件开发辅助、算法设计等垂直领域具备差异化价值。
但短板同样不容忽视。社区测试已明确指出GLM-5暂不具备多模态能力,无法处理图像、音频等非文本输入。
在当前国内主流大模型普遍向视觉语言联合理解演进的背景下,这一缺失无疑会限制GLM-5在AIGC创作场景中的适用性,并在春节期间进一步被放大。
更有趣的是,现有消息表面关注GLM-5的新突破,实则句句离不开DeepSeek的经典技术。
期待几天后的智谱能带来更多惊喜。
智谱AI选择直接集成开源技术体现了对研发效率的重视,也反映出国产大模型研发路径的转变:“开源+优化”比“闭源+自研”更务实。
AI行业即将告别参数规模的军备竞赛,专注于推理效率上的精细化运营。在控制计算成本的前提下,如何提升垂直表现将成为下一阶段竞争的关键维度。
本文由主机测评网于2026-04-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260435878.html