在目睹了GLM-5发布后的惊人实力后,不禁让人感叹,先前对神秘模型Pony Alpha的关注度似乎显得过于保守。
此次,GLM-5将开源AI带入了长任务时代,展现了前所未有的能力。
GLM-5身兼多职,持续运行代码超过24小时,经历了700次工具调用和800次上下文切换后……
它利用JavaScript,从零开始构建了一个Game Boy Advance(GBA)模拟器!
屏幕内的画面如下:
在无渲染情况下的动态效果如下:
这绝对是一项无法取巧的工程任务,因为GBA模拟器涉及了500多条CPU指令集、内存分页机制、音频子系统和图形渲染时序等。
哪怕一条指令出错,或一次文件写入偏差,整个项目都会在数小时内崩溃。
并且GLM-5面对的是无并行、无参考代码、关闭网络搜索的挑战。
从视频结果中,我们不难发现GLM-5表现稳定:
工具调用稳定:第700次与第一次在语法、格式、准确度上无差异;
指令遵循持久:上下文切换800次后,依旧遵守Meta-Prompt的规范;
工作判断稳定:GLM-5能准确判断何时进行测试、信息记录、切换策略;
上下文可靠:每次清空后,GLM-5能从笔记和文件中恢复工作状态。
网友们纷纷表示:
它(GLM-5)能制作精美的CAD模型!
目前,GLM-5的评测结果已出炉,在权威榜单Artificial Analysis中,达到了与Claude Opus 4.5比肩的水平。
在主流基准测试中,GLM-5的编程能力实现了与Claude Opus 4.5对齐。
在衡量模型经营能力的Vending Bench 2中,GLM-5取得了开源第一的成绩。
Claude Opus作为闭源模型,其护城河被GLM-5这个开源模型打破,引得网友欢呼:
感谢开源!
我们的测试将在Claude Code中通过调用GLM-5 API进行。
首个测试是制作一款考验模型逻辑闭环能力的游戏——要求GLM-5从零生成一个3D版大富翁。
GLM-5的出现,从实测和网友反响来看,标志着开源大模型完成了从助手到独立工程师的质变。
GLM从4.5版本开始专注于AI编程,现在其coding套餐在国内外非常火爆。这次智谱一上来就限售,外国网友们都在“求”。
本文由主机测评网于2026-04-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436152.html