当前位置:首页 > 科技资讯 > 正文

GLM-5:智能基座模型引领编程新纪元

2月12日,智谱公司正式开源了其新一代旗舰基座模型GLM-5,此模型专为复杂系统工程与长期Agent任务而设计,旨在大型编程任务中提供与顶尖闭源模型相媲美的生产力,为资深程序员量身打造。

几周前,开源社区盛传着一个名为Pony Alpha的模型,该模型能进行长程交互、拆解复杂任务、在多轮对话中保持上下文稳定,引发广泛关注。如今,谜底揭晓,Pony Alpha正是GLM-5的匿名测试版本。

过去一年,AI Coding领域经历了一次深刻的能力迁移。前OpenAI研究科学家Andrej Karpathy在“vibe coding”实践一周年时提出,开发者角色正由“写代码”转向“编排AI Agent”。

这一趋势在顶尖闭源阵营中已得到验证。Claude Opus 4.6与GPT-5.2在长上下文、复杂编排和工具调用上的表现,促使市场重新评估大模型的“系统级能力”。

在开源领域,Moonshot AI于2026年1月27日发布了Kimi K2.5,这是一款主打超长上下文与多智能体协作的原生多模态模型,能够自主调度上百个子智能体高效完成跨领域的复杂任务。

模型能力的分水岭正转向工程稳定性与长期任务表现。

在此背景下,智谱的进化路径清晰:从2024年初GLM-4问世并开启“All Tools”时代,初步实现Agent产品化;到2025年中GLM-4.5确立ARC原生融合架构,从底层架构上完成智能体、推理与代码的深度对齐。随后,2025年底发布的GLM-4.7通过大规模强化学习,扩展了模型的编程与逻辑处理边界。而最新旗舰GLM-5,是这一技术路线的继续升级,迈向“长程长时执行者”。

GLM-5:智能基座模型引领编程新纪元 GLM-5 智能基座模型 编程能力 AI Agent 第1张

01

技术架构:更大模型,更长记忆

从技术规格看,GLM-5参数量从GLM-4.7的355B(激活32B)扩展至744B(激活40B),预训练数据从23T token增加至28.5T token。

更大的模型容量意味着更强的知识储备和推理能力,但真正的差异化在于两个方面。

第一是名为"Slime"的强化学习框架。据智谱称,该系统支持异步智能体强化学习,使模型能从长程交互中持续学习。这与传统的短对话优化不同,理论上能让GLM-5在处理需数十步操作的工程任务时保持策略一致性。然而,这种能力在实际应用中的表现还需更多开发者验证。

第二是集成了DeepSeek的稀疏注意力机制。通过仅对高相关性token执行完整注意力计算,该机制能在保持长文本处理能力的同时降低计算成本。对于需要处理大型代码仓库的场景,这是一个实用的工程优势。

这带来两个直接收益:在维持长文本处理效果无损的同时,大幅降低部署成本,显著提升Token Efficiency。对于需要处理大型代码仓库的Agent场景而言,这是关键的工程优势。

从官方公布的关键Benchmark来看,GLM-5在编程能力上实现了与Claude Opus 4.5的对齐。在SWE-bench-Verified和Terminal Bench 2.0中分别获得77.8和56.2的开源模型最高分数,超越Gemini 3 Pro。

GLM-5:智能基座模型引领编程新纪元 GLM-5 智能基座模型 编程能力 AI Agent 第2张

在内部Claude Code评估集合中,GLM-5在前端、后端、长程任务等编程开发任务上显著超越上一代的GLM-4.7(平均增幅超过20%),能够自主完成Agentic长程规划与执行、后端重构和深度调试等系统工程任务。

GLM-5:智能基座模型引领编程新纪元 GLM-5 智能基座模型 编程能力 AI Agent 第3张

GLM-5在Agent能力上实现开源SOTA,在多个评测基准中取得开源第一。在BrowseComp(联网检索与信息理解)、MCP-Atlas(大规模端到端工具调用)和τ²-Bench(复杂场景下自动代理的工具规划和执行)均取得最高表现。

GLM-5:智能基座模型引领编程新纪元 GLM-5 智能基座模型 编程能力 AI Agent 第4张

Vending Bench 2是2025年设立的新Benchmark,要求模型在模拟环境中经营一家自动售货机公司,周期长达一年。它需自主决定进货、定价、库存结构、现金流管理,在资源有限的情况下持续优化利润。测试中,GLM-5的经营结果是“最终账户余额达到4432美元,表现接近Claude Opus 4.5”。

GLM-5:智能基座模型引领编程新纪元 GLM-5 智能基座模型 编程能力 AI Agent 第5张

当然,模型Benchmark分数与实际体验不总是一致。我们选择了五个真实场景来考察GLM-5的应用效果。

02

五个案例

// Case 1:一键克隆Web UI

“一键克隆Web UI”需模型理解页面视觉结构、抽象组件与布局逻辑、推断间距和样式规则,并完成CSS到Tailwind的语义映射。该任务能测试模型在视觉理解、工程抽象、规则推理和长程一致性上的综合能力。

以下案例让GLM-5直接克隆Claude的交互界面。

GLM-5:智能基座模型引领编程新纪元 GLM-5 智能基座模型 编程能力 AI Agent 第6张

GLM-5:智能基座模型引领编程新纪元 GLM-5 智能基座模型 编程能力 AI Agent 第7张

整体完成度较高,但UI布局与原版有差异。细节如字体气质、行高节奏、留白比例、阴影层级等仍有差距。

// Case 2:创建macOS Sonoma风格桌面操作系统模拟器

此案例测试模型构建完整“操作系统级”前端应用的能力。包括桌面环境、窗口管理、多应用架构等。考察界面还原能力、模块化设计、长程一致性等。

免费服务器免费vps服务器教程