2025年即将画上句号,真正的强者竟悄然蛰伏于「民间」!
并非谷歌、也非OpenAI,而是Anthropic的王牌编程模型——Claude Opus 4.5。
METR最新发布的报告显示,Claude Opus 4.5已能实现「长达5小时不中断」的自主持续编程。
即便是OpenAI号称最强的编程模型——GPT-5.1-Codex-Max,在此项指标上也不得不甘拜下风。
如今,整个技术社区都为Claude Opus 4.5展现出的编码实力所震撼。
AI编程智能体能处理的任务时长不仅呈现出指数级跃升——其增速更在持续加快!
2019-2024年:任务时长平均每7个月翻一番
2024-2025年:任务时长平均每4个月翻一番
初次目睹这条曲线时,许多人本能地摇头否定。
有人难以理解,有人拒绝接纳。
但不可否认的事实愈发清晰:AI编程智能体能连贯完成的任务时长,正从「分钟级」跨向「小时级」,且加速度仍在提升。
有网友直言,这是关于AI发展最重要的图表:
这张图为何被冠以「最重要的图表」?
因为它直面了一个核心议题:
AI的发展是否已触及天花板?AGI会否沦为又一个乌托邦?2025年,AI究竟取得了多少实质性进步?
普通用户感知甚微,实属正常。对多数人而言,模型早已轻松应对日常提问:
「推荐部电影」「解释这个概念」「写段文案」。
但真正的质变发生在另一条隐形战线:编码智能体。
而这恰恰是绝大多数人(包括记者与政策制定者)难以触及的维度。
这些进步看似细微,累积起来却意义深远。
2026年4月,首批AI智能体将具备独立完成一个完整人类工作日的能力;
2026年底,AI可胜任半周的工作负荷;
2027年底,AI能完成相当于两个月的任务量;
2028年底,AI可承担人类数月的持续性工作;
到2030年,AI甚至有望接管部分小型企业或组织的大部分管理职能。
为更量化地比较AI与人类能力,今年3月METR提出了一项全新指标:50%任务完成时间跨度(即50%-task-completion time horizon)。
通俗地说,就是将AI视为新人雇员:交付一项任务,观测它达到「有50%概率成功完成」时,该任务对应的人类平均耗时究竟有多长。
GPT-5.1-Codex-Max如今已能顺利完成长达2小时53分钟的软件工程任务(成功率50%),能力较o1提升了4倍。
而Claude Opus 4.5的50%时间跨度约为4小时49分钟——这是迄今为止公开发布的最高纪录。
尽管Opus 4.5的50%时间跨度显著领先,但其80%时间跨度仅为27分钟,与以往模型相当,甚至低于GPT-5.1-Codex-Max的32分钟。
然而,Opus 4.5在50%与80%时间跨度之间的巨大落差,映射出其逻辑成功率曲线更为平缓,这意味着该模型在处理耗时更长的任务时具备差异化优势。
甚至已有观点认为,Claude Code已经足够接近通用人工智能的模糊边界。
最后这种说法或许略显夸张——但它却折射出某种不容忽视的现实。
2025年堪称AI讨论最为混沌的一年,实际进展与舆论焦点之间的断层从未如此深广。
但明年或将迎来转折——当编码智能体的影响力渗透至社会经济各个毛细血管时,人们终将直面它的威力。但愿届时,我们还能从容应对。
智能体之所以能将任务执行时长不断拉长,并非偶然。
此前的普遍研究将其归因为四大因素:
推理能力跃升:善于将宏大任务拆解为可执行子任务
工具调用娴熟:能自主编写代码、检索网页、执行脚本
自纠错稳健:出错后能回滚、重试并持续推进
收益非递减:精度的微小提升,便可引发可完成任务跨度的剧增
例如,新一代模型能够更合理地规划子任务、调用外部工具(如代码编写、网页浏览),并在出错时自主修正,从而在长达数小时的任务链条中维持高成功率。
当然,在畅想光明前景时,我们仍需正视当下的局限。
一旦任务跨度从「小时级」迈向「工作日级」,新的挑战便会浮现:
上下文遗失:随着任务推进,早期交代的细节逐渐被遗忘
偏差累积:微小误差逐步放大,最终演变为系统性崩溃
目标漂移:执行过程中逐渐偏离初始目标
归根结底,这些问题都指向同一个症结:长期记忆。
AI几乎所有能力短板,最终都会追溯到记忆缺陷。
我们可以将当前的大模型类比为:一位极聪明、反应极快,但「下班即失忆」的新员工。
他能写代码、会推理、能撰写报告。 但对话一结束,他对自己的所作所为几乎毫无记忆。
目前多数智能体的「记忆」,主要依赖两种拼凑式方案:
强化检索工具:需要时主动搜索(如同在代码库里执行grep)
总结压缩塞入上下文:将过往内容提炼成摘要,再重新喂入模型
尽管信息检索技术已有长足进步,但即便最优秀的RAG(检索增强生成)系统,其准确率也仅在90%左右徘徊。
不断扩张的上下文窗口确实在一定程度上缓解了该问题:更大的窗口允许一次性输入更多数据,使模型能在庞大的记忆索引中高效「翻阅」。
但若想达到AGI级别的「细致入微」的记忆水平,仍然必须在底层架构上实现根本性突破。
更为棘手的问题是:至今没有任何系统真正具备了「自我学习」能力。
没有长期记忆,AI就无法像人类一样「越用越精」,无法从错误中吸取教训,更谈不上积淀「常识」与「智慧」。
仅仅「记住」远远不够,智能体必须能从过往经验中主动「学习」。
与智能体截然不同,人类大脑擅长将短期经历转化为长期记忆,并在日积月累中构建起知识网络和经验教训库。
AGI若想企及人类智能的广度与深度,同样亟需这样的记忆系统。
业界已逐渐形成共识:记忆是通用智能最后、也是最关键的一块拼图。
换言之,AI现有的「算力」与「智力」,或许已逼近AGI所需的阈值,唯一欠缺的正是人类所拥有的持久而丰富的记忆。
谁能率先破解「记忆难题」,谁就将在这场AGI军备竞赛中占据决定性先机。
当前智能体已具备极为强大的「搜索」能力,例如使用Cursor时,你会发现它几乎能从整个代码库中完美定位信息。
但它们依然依赖于「主动记忆」机制:智能体必须主动去「寻找」记忆,而非让记忆自然而然地融入其思维过程。
这显然远远不够。
一个能够执行文本搜索工具grep的智能体,并不等于拥有有效记忆的智能体。正如一台计算器并不等同于一位数学家。
为智能体配备一个「记忆搜索工具」并非治本之策。
那么,真正强大的AI记忆系统需要具备哪些特质?
真正的记忆,必须像人类一样,无需检索、直接知晓。
而目前的被动记忆机制仍十分原始,一旦任务复杂度稍有提升,便会迅速崩解,智能体再度退回到「全盘依赖搜索」的状态。
纽约通用智能公司创始人Andrew Pignanelli预测,未来12个月内AI行业将在「被动记忆系统」领域取得显著突破。
接下来的一年里,记忆系统(尤其是智能体的学习能力)将成为AI世界的核心议题,并被正式确立为通向AGI的最后一步。
OpenAI成功推出ChatGPT记忆功能后,Claude近期已跟进布局,其他各大模型公司也将纷纷打磨自家的记忆系统。
长期记忆工具的接入体验将得到质的提升,尤其伴随着上下文窗口的持续扩容;
「睡眠时间智能体」会在用户无感的情况下,默默阅读邮件、文件和表格,构建背景知识与个性化记忆;
「实时智能体」将在信息检索方面趋近完美,你的偏好、行文风格、行为习惯都会被快速融合。
短期内,自动注入上下文的方式尚不会完全自然,但为确保记忆检索的准确性,用户普遍会接受「响应稍慢」的现实。
然而,随着AI变得越来越「懂你」,你对AI的依赖也将日益加深。
在消费端,用户或许只会注意到「对话开始前略有卡顿」,却不知背后是一个庞大的记忆系统在悄然运转。
到今年年底,「上下文腐烂」问题(context rot)预计将被攻克,解决方案包括:
引入「遗忘机制」;
专为长程对话设计的上下文清理系统;
更先进的「上下文检索」技术(能从海量信息中精准抽取关键内容)
未来,用户将不再通过文件树导航信息,而是由AI智能体直接代为检索和访问所需数据。像Replit和Lovable这类代码生成平台已在此领域先行一步。
明年春天(2026年)极有可能出现由「新一代多模态大模型」与「注意力机制之外的记忆系统」结合催生的重大突破。
未来12个月内,「记忆+学习」领域很有可能迎来颠覆性进展。
OpenAI等领军团队正在全力攻关持续学习与自我记忆技术;一旦他们取得突破,并将其应用于顶级模型之上,我们或许会惊呼:AGI已然降临。
综合当前的发展态势,完全可以断言:AGI已不再是遥不可及的科幻梦,而可能近在咫尺。
这一预判并非空穴来风。
回顾过去一年,我们曾多次低估AI进化的速度。
GPT-5发布之初虽评价褒贬不一,但其在长任务执行方面的提升幅度远超前代;Claude 4.5的惊艳亮相,更是证明了进步的非线性:一旦关键技术取得突破,能力曲线便会陡然跃升。
如今,网络上随处可见这样的案例:随着机器智能成为首要生产要素,新型组织形态正在涌现。
这是历史上首次,这一全新要素为我们提供了改进流程本身的思路。依托AI,微型团队竟能输出超越以往数十人甚至上百人团队的工作成果,尤其在特定软件领域,生产力增长令人瞠目。
这种爆发式的效能,很难不让人心潮澎湃。
这无异于某种意义上的「阿特拉斯卸下重担」的时刻,是智能生产力「起飞」的先兆。
与2023年那种诗意盎然的「AI觉醒叙事」相比,如今的这一切显得更平实、更务实,却更加撼动人心,更加真切可感。
倘若记忆问题得到根本性解决,AI能力或将迎来新一轮爆发。
届时,AI智能体将不再只是无休止重复劳作的「工具」,而会演变为越用越聪明、与你共同成长的「数字同事」。
它能记住你的偏好。
它能铭记你曾踩过的坑。
它能从项目中提炼经验。
然后在下次合作时,主动助你把效率再推高一个台阶。
这正是许多人心中对AGI在人类社会中角色的理想愿景。
参考资料:
https://www.oneusefulthing.org/p/real-ai-agents-and-real-work
https://www.generalintelligencecompany.com/writing/memory-is-the-last-problem-to-solve-to-reach-agi
https://www.shippingapps.dev/writings/memory-last-problem
https://x.com/tszzl/status/2002488418887168297
本文由主机测评网于2026-02-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260224906.html