当前位置:首页 > 科技资讯 > 正文

GPT-5.2极限压力测试:168小时连续编程,从零构建300万行代码的AI浏览器

【导读】一个AI大模型持续编写代码的极限在哪里?是一个小时、一天,还是完成单个任务即止?Cursor首席执行官Michael Truell近期进行了一场震撼业界的极限压力测试。

Michael Truell驱动Cursor内置的GPT-5.2模型,实现了整整一周的超长连续运行。

这并非短暂的脚本编写,而是长达168小时、不眠不休的数字化奋战。

最终的战果令人惊叹:

逾300万行代码,数千个源代码文件。

AI竟然从零开始,独立构建出了一个功能完备的全新浏览器。

GPT-5.2极限压力测试:168小时连续编程,从零构建300万行代码的AI浏览器 GPT-5.2  Cursor AI 自动化编程 浏览器引擎 第1张

值得注意的是,这款浏览器并非简单的外壳,而是具备Chromium量级的核心组件。

从底层的HTML解析、复杂的CSS布局引擎,到文本渲染系统,甚至包含一个自研的JavaScript虚拟机,全部由AI自主编写完成。

Michael Truell在社交媒体上淡定地展示了成果:该浏览器已能基本运行,并能快速、准确地渲染简单的网页内容。

GPT-5.2极限压力测试:168小时连续编程,从零构建300万行代码的AI浏览器 GPT-5.2  Cursor AI 自动化编程 浏览器引擎 第2张

探索AI模型的工程耐力极限

以往的AI编程工具,如早期版本的GitHub Copilot,大多遵循一问一答的交互逻辑。

这种模式下,上下文窗口有限,任务处理的深度与复杂度也受到极大制约。

随着Claude Code、Cursor Agent等智能体(Agentic)编程工具的兴起,AI开始具备多步执行、环境感知及自我修复能力。

尽管这已是长足进步,但大多数任务仍停留在小时级别,且需要频繁的人类介入评审。

然而,从未有人尝试让模型在无人工干预下连续高强度工作一周。

直到GPT-5.2的出现打破了僵局。

Cursor团队让GPT-5.2进入了全天候工作模式,这不仅是时间的积累,更是高难度的逻辑连贯性挑战。

GPT-5.2极限压力测试:168小时连续编程,从零构建300万行代码的AI浏览器 GPT-5.2  Cursor AI 自动化编程 浏览器引擎 第3张

在这一周的周期内,它完成了以下壮举:

  • 输出超过300万行核心代码
  • 搭建了包含数千个文件的复杂工程目录
  • 消耗了数万亿级别的token流量
  • 独立完成了渲染引擎从零到一的架构与实现

AI的持续工作上限究竟在哪里?

实验证明:在算力与基础设施稳定的前提下,AI几乎拥有无限的续航能力

它不需要休息,不需要激励,只要目标明确,就能成为7×24小时不停歇的“数字工蜂”。

但这背后更深层的考验在于模型的“长程任务专注度”。

上下文窗口决定了AI的记忆广度,而模型逻辑则决定了其执行精度。

早期的模型受限于4K或128K的窗口,容易在长对话中“迷失”。即使号称拥有百万级上下文的模型,也未必能保持长久的一致性。

Cursor团队在多模型对比中发现了显著的“耐力”差异。

GPT-5.2极限压力测试:168小时连续编程,从零构建300万行代码的AI浏览器 GPT-5.2  Cursor AI 自动化编程 浏览器引擎 第4张

官方实验报告显示:

  • GPT-5.2展现了极强的自主性与指令遵循能力,能够长时间锁定目标不偏移;
  • Claude Opus 4.5表现出一定的“急躁”,倾向于快速交付并频繁请求人类确认;
  • GPT-5.1-Codex虽然编码专业度高,但在处理跨模块的宏观规划时容易出现中断。

通俗来讲:Opus更像一个聪明的实习生,稍有不确定就想交卷请教;

GPT-5.2极限压力测试:168小时连续编程,从零构建300万行代码的AI浏览器 GPT-5.2  Cursor AI 自动化编程 浏览器引擎 第5张

GPT-5.2则展现出了资深架构师的风范,一旦明确任务,便能深扎到底。因此,Cursor将其定义为处理长时任务的最佳模型。

除浏览器外,Cursor还同步推进了JavaLSP、Windows 7模拟器及Excel克隆等项目,其代码产出量同样惊人,分别达到了55万行至160万行不等。

GPT-5.2极限压力测试:168小时连续编程,从零构建300万行代码的AI浏览器 GPT-5.2  Cursor AI 自动化编程 浏览器引擎 第6张

多智能体协作:构建数字工厂的秘诀

单周输出300万行代码且无人类干预,这并非单体模型的功劳,而是多智能体系统(Multi-Agent System)协作的结晶。

GPT-5.2极限压力测试:168小时连续编程,从零构建300万行代码的AI浏览器 GPT-5.2  Cursor AI 自动化编程 浏览器引擎 第7张

在摸索过程中,Cursor团队解决了Agent之间协作的死锁与通讯冗余问题。他们发现,如果所有Agent平等且杂乱地共享文件,会导致严重的效率衰减。

GPT-5.2极限压力测试:168小时连续编程,从零构建300万行代码的AI浏览器 GPT-5.2  Cursor AI 自动化编程 浏览器引擎 第8张

最终,他们成功构建了一套高效的分层治理架构

  • 规划层(Planners):负责全局代码审计、任务分配及高层决策;
  • 执行层(Workers):高度专注,快速完成特定模块开发后即进入下一环节;
  • 评审层(Agents):扮演QA角色,负责循环迭代中的代码质量把关。

这种模式完美复刻了顶尖软件公司的开发流程,但不同之处在于,上百个Agent在同一代码库上协同工作数周,却几乎未发生任何代码冲突,这种协作默契远超人类团队。

突破浏览器工程的核心壁垒

手写浏览器内核的难度在软件工程界仅次于开发操作系统。谷歌Chromium拥有超过3500万行代码,被誉为人类工程的巅峰。

GPT-5.2在七天内啃下了多块硬骨头:

其一是复杂的CSS布局逻辑。CSS标准充满了历史遗留的规则与层叠嵌套,实现一个完美的渲染引擎如同在多变的物理法则中构建宇宙。

其二是高性能虚拟机的构建。自主编写支持内存管理与安全沙箱的JS虚拟机,对逻辑严密性的要求极高。

其三是选用了Rust语言。Rust以严苛的借用检查著称。AI不仅要完成功能,还要在数百万行的体量下,通过Rust编译器的“魔鬼审核”。这标志着AI已经具备了顶级的架构掌控力与工程严谨性。

从“任务工具”向“数字劳工”的质变

这次实验最核心的突破在于“无中断长程任务”的实现。这标志着AI从碎片的补全工具,进化为了能够独立负责复杂项目的“数字员工”。

在168小时中,GPT-5.2面对Bug不再是停滞报错,而是通过读取日志、自我调试、重构逻辑,形成了完美的自主闭环。这种“编写-运行-修复”的能力,曾是人类开发者的核心护城河,而今已被AI跨越。

这意味着软件开发的边际成本正趋于零。当我们可以通过消耗廉价的token,在短短几天内完成以往需要数月、耗资百万的人力项目时,整个软件经济学将被彻底改写。

当AI开始在寂静的深夜独自解决复杂的工程难题时,它已不再仅仅是人类手中的工具,而是真正能够并肩前行的数字化伙伴。

结语:代码演进的新纪元

澳洲“放羊大叔”用几行代码让AI不达目的不罢休,而Cursor则将这一理念推向了极致。只要算力充足、任务清晰,AI的运行边界就是无穷。

GPT-5.2极限压力测试:168小时连续编程,从零构建300万行代码的AI浏览器 GPT-5.2  Cursor AI 自动化编程 浏览器引擎 第9张

据推测,该浏览器项目的Token消耗约为30亿个。随着Token成本的持续下降,正如曾经的水电煤一样,算力将变得极其廉价。未来的软件开发,或许不再是人类的一行行敲打,而是人类意图的自动延展与展开。

GPT-5.2极限压力测试:168小时连续编程,从零构建300万行代码的AI浏览器 GPT-5.2  Cursor AI 自动化编程 浏览器引擎 第10张

一个模型能跑多久?只要你的需求还在,它就能永不退场。

参考资料:

https://x.com/mntruell/status/2011562190286045552 

https://x.com/leerob/status/2011565729838166269 

https://cursor.com/cn/blog/scaling-agents