当前位置：首页 > 科技资讯 > 正文

GLM-5：智能基座模型引领编程新纪元

主机测评网
科技资讯
2026-04-12
893

2月12日，智谱公司正式开源了其新一代旗舰基座模型GLM-5，此模型专为复杂系统工程与长期Agent任务而设计，旨在大型编程任务中提供与顶尖闭源模型相媲美的生产力，为资深程序员量身打造。

几周前，开源社区盛传着一个名为Pony Alpha的模型，该模型能进行长程交互、拆解复杂任务、在多轮对话中保持上下文稳定，引发广泛关注。如今，谜底揭晓，Pony Alpha正是GLM-5的匿名测试版本。

过去一年，AI Coding领域经历了一次深刻的能力迁移。前OpenAI研究科学家Andrej Karpathy在“vibe coding”实践一周年时提出，开发者角色正由“写代码”转向“编排AI Agent”。

这一趋势在顶尖闭源阵营中已得到验证。Claude Opus 4.6与GPT-5.2在长上下文、复杂编排和工具调用上的表现，促使市场重新评估大模型的“系统级能力”。

在开源领域，Moonshot AI于2026年1月27日发布了Kimi K2.5，这是一款主打超长上下文与多智能体协作的原生多模态模型，能够自主调度上百个子智能体高效完成跨领域的复杂任务。

模型能力的分水岭正转向工程稳定性与长期任务表现。

在此背景下，智谱的进化路径清晰：从2024年初GLM-4问世并开启“All Tools”时代，初步实现Agent产品化；到2025年中GLM-4.5确立ARC原生融合架构，从底层架构上完成智能体、推理与代码的深度对齐。随后，2025年底发布的GLM-4.7通过大规模强化学习，扩展了模型的编程与逻辑处理边界。而最新旗舰GLM-5，是这一技术路线的继续升级，迈向“长程长时执行者”。

GLM-5：智能基座模型引领编程新纪元 GLM-5 智能基座模型编程能力 AI Agent 第1张

01 技术架构：更大模型，更长记忆

从技术规格看，GLM-5参数量从GLM-4.7的355B（激活32B）扩展至744B（激活40B），预训练数据从23T token增加至28.5T token。

更大的模型容量意味着更强的知识储备和推理能力，但真正的差异化在于两个方面。

第一是名为"Slime"的强化学习框架。据智谱称，该系统支持异步智能体强化学习，使模型能从长程交互中持续学习。这与传统的短对话优化不同，理论上能让GLM-5在处理需数十步操作的工程任务时保持策略一致性。然而，这种能力在实际应用中的表现还需更多开发者验证。

第二是集成了DeepSeek的稀疏注意力机制。通过仅对高相关性token执行完整注意力计算，该机制能在保持长文本处理能力的同时降低计算成本。对于需要处理大型代码仓库的场景，这是一个实用的工程优势。

这带来两个直接收益：在维持长文本处理效果无损的同时，大幅降低部署成本，显著提升Token Efficiency。对于需要处理大型代码仓库的Agent场景而言，这是关键的工程优势。

从官方公布的关键Benchmark来看，GLM-5在编程能力上实现了与Claude Opus 4.5的对齐。在SWE-bench-Verified和Terminal Bench 2.0中分别获得77.8和56.2的开源模型最高分数，超越Gemini 3 Pro。

GLM-5：智能基座模型引领编程新纪元 GLM-5 智能基座模型编程能力 AI Agent 第2张

在内部Claude Code评估集合中，GLM-5在前端、后端、长程任务等编程开发任务上显著超越上一代的GLM-4.7（平均增幅超过20%），能够自主完成Agentic长程规划与执行、后端重构和深度调试等系统工程任务。

GLM-5：智能基座模型引领编程新纪元 GLM-5 智能基座模型编程能力 AI Agent 第3张

GLM-5在Agent能力上实现开源SOTA，在多个评测基准中取得开源第一。在BrowseComp（联网检索与信息理解）、MCP-Atlas（大规模端到端工具调用）和τ²-Bench（复杂场景下自动代理的工具规划和执行）均取得最高表现。

GLM-5：智能基座模型引领编程新纪元 GLM-5 智能基座模型编程能力 AI Agent 第4张

Vending Bench 2是2025年设立的新Benchmark，要求模型在模拟环境中经营一家自动售货机公司，周期长达一年。它需自主决定进货、定价、库存结构、现金流管理，在资源有限的情况下持续优化利润。测试中，GLM-5的经营结果是“最终账户余额达到4432美元，表现接近Claude Opus 4.5”。

GLM-5：智能基座模型引领编程新纪元 GLM-5 智能基座模型编程能力 AI Agent 第5张