当前位置:首页 > 科技资讯 > 正文

智谱GLM-5大揭秘:技术复用引领AI新变革

距离春节仅剩一周,根据过往经验,这意味着国产AI新产品的热潮即将来临。

Kimi K2.5在OpenRouter上独占鳌头,Minimax也在官网隐约透露出M2.2的代号。

大家翘首以盼,智谱和DeepSeek年前是否会有大动作?

果不其然,短短48小时内,三个独立技术平台相继出现与智谱新模型GLM-5相关的线索,构成了一条完整的信息链。

01 线索浮现:三平台齐曝GLM-5踪迹

2月7日,OpenRouter平台悄然上线了一款代号为“pony-alpha”的模型。

经实际测试,其思维链风格与智谱的GLM系列高度一致,例如:

面对常规回答,它会以“嗯,……”为开头思考;

面对知识检索任务,会分点列出“1.分析请求:……”;

遇到代码任务,则会明确标注“用户要求……”。

技术社区将这一模型投入实际开发后,发现它在贪吃蛇、Minecraft等复杂代码生成任务中表现稳健,但缺乏图像等多模态输入支持。

智谱GLM-5大揭秘:技术复用引领AI新变革 GLM-5 DeepSeek 混合专家架构 多模态 第1张

紧接着的2月9日,vLLM推理框架仓库出现了编号为34124的pull request,代码中首次明确出现“GLM-5”标识。

更重要的是,代码显示其实现逻辑直接复用了DeepSeek-V3系列模型采用的DSA(DeepSeek Sparse Attention,稀疏注意力)机制,并集成了MTP(Multi-Token Prediction,多标记预测)技术。

智谱GLM-5大揭秘:技术复用引领AI新变革 GLM-5 DeepSeek 混合专家架构 多模态 第2张

几乎同时,Hugging Face transformers仓库合并了编号为43858的pull request,正式引入了智谱的GlmMoeDsa架构。

代码显示,GLM-5采用78层Transformer解码器,前三层为稠密(Dense)结构,第四层及以后采用混合专家(MoE)架构,共配置256个专家网络,处理单个token时激活其中8个,并辅以1个共享专家以保证基础能力稳定。

GLM-5的上下文窗口进一步扩展至202K,词表规模为154880,相比前代GLM-4.7提升有限。

02 架构解析:效率与规模的平衡

过去两年里,规模化法则(Scaling Law)的正确性已得到充分验证。

前段时间备受好评的Kimi-K2.5也凭借国产模型中少有的1T参数量证明了“大就是好”。

智谱GLM-5大揭秘:技术复用引领AI新变革 GLM-5 DeepSeek 混合专家架构 多模态 第3张

然而,智谱创始人唐杰在2026年的AGI Next峰会上提出了不同看法:

单纯的模型扩展虽为提升智能的有效路径,但本质上是最轻松的偷懒方式。

回顾即将诞生的GLM-5,若根据社区透露的现有信息来看,其技术路线已明显呈现“效率优先”导向,而非继续堆砌参数。

首先是混合专家(MoE)架构,在如今的AI时代已不陌生。它将模型参数分散至多个专业化的子网络(即“专家”),推理时仅调用与任务最相关的少数专家。

GLM-5采用“256专家+8激活”配置,在维持更大规模参数总量的同时,单次推理仅调用约3%的参数,有效控制了计算成本和响应延迟。

前3层保留稠密结构以确保模型具备基础语言理解能力的稳定性,避免稀疏化带来的表征断裂风险。

其次是智谱选择了已被DeepSeek验证的稀疏注意力机制(DSA),而非自行研发同类机制。

前面已提及,GLM-5对DSA的集成属于架构复用。代码中明确显示GLM-5中的“GlmMoeDsaForCausalLM”类直接继承自“DeepseekV2ForCausalLM”。

智谱GLM-5大揭秘:技术复用引领AI新变革 GLM-5 DeepSeek 混合专家架构 多模态 第4张

03 产业洞察:技术复用的趋势不可阻挡

基于社区测试和技术架构推演的结果,我们大致可以确认:

GLM-5在代码生成逻辑推理两个场景具有优势和竞争力。

“pony-alpha”在Minecraft这一复杂项目中展现的代码能力,结合对DSA等DeepSeek经典技术的复用,使GLM-5在软件开发辅助、算法设计等垂直领域具备差异化价值。

但短板同样不容忽视。社区测试已明确指出GLM-5暂不具备多模态能力,无法处理图像、音频等非文本输入。

在当前国内主流大模型普遍向视觉语言联合理解演进的背景下,这一缺失无疑会限制GLM-5在AIGC创作场景中的适用性,并在春节期间进一步被放大。

更有趣的是,现有消息表面关注GLM-5的新突破,实则句句离不开DeepSeek的经典技术。

期待几天后的智谱能带来更多惊喜。

智谱AI选择直接集成开源技术体现了对研发效率的重视,也反映出国产大模型研发路径的转变:“开源+优化”比“闭源+自研”更务实。

AI行业即将告别参数规模的军备竞赛,专注于推理效率上的精细化运营。在控制计算成本的前提下,如何提升垂直表现将成为下一阶段竞争的关键维度。