当前位置:首页 > 科技资讯 > 正文

GLM-5引领开源AI新时代,长任务时代全面升级

在目睹了GLM-5发布后的惊人实力后,不禁让人感叹,先前对神秘模型Pony Alpha的关注度似乎显得过于保守。

此次,GLM-5将开源AI带入了长任务时代,展现了前所未有的能力。

GLM-5身兼多职,持续运行代码超过24小时,经历了700次工具调用和800次上下文切换后……

它利用JavaScript,从零开始构建了一个Game Boy Advance(GBA)模拟器

GLM-5引领开源AI新时代,长任务时代全面升级 GLM-5 开源AI 长任务时代 评测 第1张

屏幕内的画面如下:

GLM-5引领开源AI新时代,长任务时代全面升级 GLM-5 开源AI 长任务时代 评测 第2张

在无渲染情况下的动态效果如下:

这绝对是一项无法取巧的工程任务,因为GBA模拟器涉及了500多条CPU指令集、内存分页机制、音频子系统和图形渲染时序等。

哪怕一条指令出错,或一次文件写入偏差,整个项目都会在数小时内崩溃。

并且GLM-5面对的是无并行、无参考代码、关闭网络搜索的挑战。

从视频结果中,我们不难发现GLM-5表现稳定:

工具调用稳定:第700次与第一次在语法、格式、准确度上无差异;

指令遵循持久:上下文切换800次后,依旧遵守Meta-Prompt的规范;

工作判断稳定:GLM-5能准确判断何时进行测试、信息记录、切换策略;

上下文可靠:每次清空后,GLM-5能从笔记和文件中恢复工作状态。

网友们纷纷表示:

它(GLM-5)能制作精美的CAD模型!

GLM-5引领开源AI新时代,长任务时代全面升级 GLM-5 开源AI 长任务时代 评测 第3张

目前,GLM-5的评测结果已出炉,在权威榜单Artificial Analysis中,达到了与Claude Opus 4.5比肩的水平。

GLM-5引领开源AI新时代,长任务时代全面升级 GLM-5 开源AI 长任务时代 评测 第4张

在主流基准测试中,GLM-5的编程能力实现了与Claude Opus 4.5对齐。

GLM-5引领开源AI新时代,长任务时代全面升级 GLM-5 开源AI 长任务时代 评测 第5张

在衡量模型经营能力的Vending Bench 2中,GLM-5取得了开源第一的成绩。

GLM-5引领开源AI新时代,长任务时代全面升级 GLM-5 开源AI 长任务时代 评测 第6张

Claude Opus作为闭源模型,其护城河被GLM-5这个开源模型打破,引得网友欢呼:

感谢开源!

GLM-5引领开源AI新时代,长任务时代全面升级 GLM-5 开源AI 长任务时代 评测 第7张

已有应用申请上架App Store

我们的测试将在Claude Code中通过调用GLM-5 API进行。

首个测试是制作一款考验模型逻辑闭环能力的游戏——要求GLM-5从零生成一个3D版大富翁。

GLM-5引领开源AI新时代,长任务时代全面升级 GLM-5 开源AI 长任务时代 评测 第8张

开源,再次胜利

GLM-5的出现,从实测和网友反响来看,标志着开源大模型完成了从助手到独立工程师的质变。

还有两点值得注意:

GLM从4.5版本开始专注于AI编程,现在其coding套餐在国内外非常火爆。这次智谱一上来就限售,外国网友们都在“求”。

GLM-5引领开源AI新时代,长任务时代全面升级 GLM-5 开源AI 长任务时代 评测 第9张