【导读】一个AI大模型持续编写代码的极限在哪里?是一个小时、一天,还是完成单个任务即止?Cursor首席执行官Michael Truell近期进行了一场震撼业界的极限压力测试。
Michael Truell驱动Cursor内置的GPT-5.2模型,实现了整整一周的超长连续运行。
这并非短暂的脚本编写,而是长达168小时、不眠不休的数字化奋战。
最终的战果令人惊叹:
逾300万行代码,数千个源代码文件。
AI竟然从零开始,独立构建出了一个功能完备的全新浏览器。
值得注意的是,这款浏览器并非简单的外壳,而是具备Chromium量级的核心组件。
从底层的HTML解析、复杂的CSS布局引擎,到文本渲染系统,甚至包含一个自研的JavaScript虚拟机,全部由AI自主编写完成。
Michael Truell在社交媒体上淡定地展示了成果:该浏览器已能基本运行,并能快速、准确地渲染简单的网页内容。
以往的AI编程工具,如早期版本的GitHub Copilot,大多遵循一问一答的交互逻辑。
这种模式下,上下文窗口有限,任务处理的深度与复杂度也受到极大制约。
随着Claude Code、Cursor Agent等智能体(Agentic)编程工具的兴起,AI开始具备多步执行、环境感知及自我修复能力。
尽管这已是长足进步,但大多数任务仍停留在小时级别,且需要频繁的人类介入评审。
然而,从未有人尝试让模型在无人工干预下连续高强度工作一周。
直到GPT-5.2的出现打破了僵局。
Cursor团队让GPT-5.2进入了全天候工作模式,这不仅是时间的积累,更是高难度的逻辑连贯性挑战。
在这一周的周期内,它完成了以下壮举:
AI的持续工作上限究竟在哪里?
实验证明:在算力与基础设施稳定的前提下,AI几乎拥有无限的续航能力。
它不需要休息,不需要激励,只要目标明确,就能成为7×24小时不停歇的“数字工蜂”。
但这背后更深层的考验在于模型的“长程任务专注度”。
上下文窗口决定了AI的记忆广度,而模型逻辑则决定了其执行精度。
早期的模型受限于4K或128K的窗口,容易在长对话中“迷失”。即使号称拥有百万级上下文的模型,也未必能保持长久的一致性。
Cursor团队在多模型对比中发现了显著的“耐力”差异。
官方实验报告显示:
通俗来讲:Opus更像一个聪明的实习生,稍有不确定就想交卷请教;
而GPT-5.2则展现出了资深架构师的风范,一旦明确任务,便能深扎到底。因此,Cursor将其定义为处理长时任务的最佳模型。
除浏览器外,Cursor还同步推进了JavaLSP、Windows 7模拟器及Excel克隆等项目,其代码产出量同样惊人,分别达到了55万行至160万行不等。
单周输出300万行代码且无人类干预,这并非单体模型的功劳,而是多智能体系统(Multi-Agent System)协作的结晶。
在摸索过程中,Cursor团队解决了Agent之间协作的死锁与通讯冗余问题。他们发现,如果所有Agent平等且杂乱地共享文件,会导致严重的效率衰减。
最终,他们成功构建了一套高效的分层治理架构:
这种模式完美复刻了顶尖软件公司的开发流程,但不同之处在于,上百个Agent在同一代码库上协同工作数周,却几乎未发生任何代码冲突,这种协作默契远超人类团队。
手写浏览器内核的难度在软件工程界仅次于开发操作系统。谷歌Chromium拥有超过3500万行代码,被誉为人类工程的巅峰。
GPT-5.2在七天内啃下了多块硬骨头:
其一是复杂的CSS布局逻辑。CSS标准充满了历史遗留的规则与层叠嵌套,实现一个完美的渲染引擎如同在多变的物理法则中构建宇宙。
其二是高性能虚拟机的构建。自主编写支持内存管理与安全沙箱的JS虚拟机,对逻辑严密性的要求极高。
其三是选用了Rust语言。Rust以严苛的借用检查著称。AI不仅要完成功能,还要在数百万行的体量下,通过Rust编译器的“魔鬼审核”。这标志着AI已经具备了顶级的架构掌控力与工程严谨性。
这次实验最核心的突破在于“无中断长程任务”的实现。这标志着AI从碎片的补全工具,进化为了能够独立负责复杂项目的“数字员工”。
在168小时中,GPT-5.2面对Bug不再是停滞报错,而是通过读取日志、自我调试、重构逻辑,形成了完美的自主闭环。这种“编写-运行-修复”的能力,曾是人类开发者的核心护城河,而今已被AI跨越。
这意味着软件开发的边际成本正趋于零。当我们可以通过消耗廉价的token,在短短几天内完成以往需要数月、耗资百万的人力项目时,整个软件经济学将被彻底改写。
当AI开始在寂静的深夜独自解决复杂的工程难题时,它已不再仅仅是人类手中的工具,而是真正能够并肩前行的数字化伙伴。
澳洲“放羊大叔”用几行代码让AI不达目的不罢休,而Cursor则将这一理念推向了极致。只要算力充足、任务清晰,AI的运行边界就是无穷。
据推测,该浏览器项目的Token消耗约为30亿个。随着Token成本的持续下降,正如曾经的水电煤一样,算力将变得极其廉价。未来的软件开发,或许不再是人类的一行行敲打,而是人类意图的自动延展与展开。
一个模型能跑多久?只要你的需求还在,它就能永不退场。
参考资料:
https://x.com/mntruell/status/2011562190286045552
https://x.com/leerob/status/2011565729838166269
https://cursor.com/cn/blog/scaling-agents
本文由主机测评网于2026-03-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:http://www.vpshk.cn/20260332302.html