当前位置:首页 > 科技资讯 > 正文

AI智能体进化:任务长度指数增长重构人机协作

2025年10月25日,一位极少公开亮相的顶尖人工智能研究员在播客节目中分享了他的关键洞察。

人工智能的发展毫无减速征兆。每隔三到四个月,模型所能处理的任务时长便翻一番。

发表此番言论的是Julian Schrittwieser,Anthropic的核心研究员,他曾于谷歌DeepMind主导AlphaGo Zero与MuZero的开发工作。

这并非一次科普访谈。他身处最前沿的研究实验室,正见证着一个多数人尚未察觉的现实:

公众所见:模型正确回答了几个问题

他所见:模型已能处理长达一整天的工作量

为何难以察觉?

Julian 给出的解释是:人类的直觉难以把握指数级变化。

AI智能体进化:任务长度指数增长重构人机协作 指数增长  任务长度 智能体 强化学习 第1张

(图片来源:Julian Schrittwieser的博文《再次未能理解指数增长》,链接https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/)

正如疫情初期人们低估病毒传播速率,AI正遵循相似的轨迹。当模型能力每三、四个月倍增,关键并非其当前多强大,而在于你是否理解正在发生的三方面变革。

第一节|模型能持续运作多久,方为要害

Julian Schrittwieser 的职业路径,几乎贯穿了过去十年人工智能发展的核心脉络。

他助力AlphaGo战胜李世石,是MuZero的首席作者,现今在Anthropic负责Claude模型的推理研究。

“AI的核心,不在于能解答多少题目,而在于能连续执行任务多长时间。”

在他看来,AI的进步并非一系列“功能升级”,而是任务持续时间的延伸。从数秒、数分钟,到如今能处理数小时甚至数天的连续任务。

Julian 在访谈中阐明,这一指标称为任务长度(task length),是Anthropic内部用以衡量模型“生产力水平”的关键标准。他们发现,每过三四个月,任务长度便会倍增。模型不像人类会疲劳,能持续思考与执行,且在长任务中错误率反而降低。

他举例说明:以往模型编写一段程序,需人类不断提示;如今,Claude已能独立完成一个完整应用模块的编写,包括规划结构、调用接口、测试与修复。

这并非变得更聪明,而是能工作更久、更稳定。

犹如马拉松跑者,关键不在冲刺速度,而在坚持跑完全程的耐力。

Julian 认为,这种“任务耐力”的提升,比模型参数规模更值得关注。因为这意味模型正从工具转变为执行者。当模型能独立工作一整天,它便能像同事一样被分配任务、跟踪进度、验证成果。

Anthropic内部对Claude的连续任务评估表明,模型能在无人工干预下,连续工作6至8小时,完成从编码到文档总结的全套流程。

Julian 强调:

“我们并非等待‘超级智能’降临,只是目睹任务长度从一分钟延伸至一整天。”

当外界仍在争论AI是否会取代人类,实验室里已在追问:它今日能工作多久?

第二节|Claude 的底层能力,非记忆广度

“并非所有模型都能独立完成任务,更非所有模型都能连续工作一整天。”

Julian 解释,Claude能力的本质,不限于语言模型规模更大,而在于其具备了一种“预演未来”的能力。

“Claude背后的关键并非参数量,而是其内部拥有一个‘世界模型’,能模拟未来数步可能发生的情景。”

这个“世界模型”(world model),并非记忆数据,亦非预测词语。它更似人类在脑海中推演:若我说此话,对方可能如何回应?我接下来该如何行动?

Julian 表示,此类模型已非在“应答”,而是在“思考”。

此能力实则源于他在MuZero时期便开始探索的技术路径。

MuZero是DeepMind于2020年提出的强化学习模型,其最大突破在于:无需知晓完整规则或环境,仅凭经验便能学会在脑中预测后续步骤,并持续调整。

Julian 总结此法时称:

人类不会预先记忆整个世界,而是通过设想下一步结果来决策行动。AI亦应如此。

此乃Claude不同之处:它不再仅是生成句子的工具,而是能模拟因果关系、进行尝试、修正路径的行动主体。

实现此类“预演”,依赖的并非单一预训练,而是训练后的强化学习。强化学习过程,犹如让模型反复练习,直至学会自主判断、遵循正确流程。

预训练赋予模型知识,强化学习教会其执行任务。

换言之,一是“知晓答案”,一是“寻得通往答案的路径”。若无强化学习,模型即便知晓答案,亦无法自行找到那条路径。

他提及Claude的一项实验:赋予模型一项复杂任务,例如编写一段带测试的API代码,要求其:

  • 自主规划编写方式;
  • 判断何时使用何函数;
  • 出错时自行调试;
  • 最终输出可运行代码。

Claude做到了,且中间数次纠错均为其自主意识到问题并重写。

此能力源自世界模型与强化学习的结合:模型不再仅回答问题,而能在内部推演路径、分解任务、预判结果、修正错误。

它已从语言模型,演进为行动模型。

第三节|从应答到承接任务:Claude 能办事了

Claude与以往语言模型有何不同?

Julian 的回答极为简洁:

Claude 不再是聊天机器人,而是你可交付任务予其执行的行动者。

他表示,在Anthropic内部,他们早已不再将Claude用作“答题器”,而是让其处理真实任务,例如:

编写一段可运行的API代码

阅读数千字的PDF文件,总结并列出关键点

执行整套文档处理流程,包括改写、格式化、生成摘要

更关键的是,这些任务由Claude分阶段自主完成,无需人工介入。

Julian 指出,过去几年业界流行的“提示工程”(prompt engineering),本质是人类为模型铺设道路,令其循迹而行。但如今,Claude的核心能力是“承接任务”:你无需逐步指挥,仅需给出目标,它会自行拆分、执行、检查、完成。

这正是智能体(agent)开始成型的关键特质。

它非依赖记忆解题,而是凭借连续思考与行动达成任务。

他列举Claude Code与Claude Agent SDK为例。此乃Anthropic近期内部重构的两大重点模块,目标在于:让模型能如数字员工般处理长流程、多步骤任务。

Claude Code能够:

在你未撰写完整需求文档时,推断如何构建功能

  • 自行在代码中添加调试语句,定位错误
  • 编写代码后,为你生成测试样例
  • 依据测试结果,自动重写逻辑

而Claude Agent SDK更进一步,它能执行更复杂的多步任务,例如:

  • 启动工具 → 查找资料 → 写入文档 → 检查输出 → 清理中间结果
  • 若流程中途失败,会自动记录失败原因并尝试重试

Julian 如此描述:现今你交付Claude的非单一问题,而是一份任务清单。

此正为Claude与传统模型间最本质的区别:传统模型仅负责应答,依赖提示指令,完成单轮交互;而Claude已能自主分解任务、多轮执行、自我纠正。

它已从工具,蜕变为可交付成果的协作伙伴。

第四节|一次做对易,十次做对难

若说Claude已能干活,随之而来的问题是:它每次都能顺利完工吗?

Julian 给出的答案是:未必。

他表示,此正是当前构建智能体最实际的挑战:

我们并非忧虑模型不够聪慧,而是其能否稳定完成任务、不出错、不偏离。

AI非无能,而是极易被细微问题中断。

例如:

在文档流程中,模型前半段处理出色,但后半段突然格式混乱;

在执行某代码改写任务时,模型起初理解正确,随后却遗忘初始目标;

或某环节失败,模型未判断错误所在,继续错误执行。

核心症结在于:预训练所学知识虽多,但不会告知“何时应停止”,亦不会告知“此步是否正确”。

换言之,模型并非真知自身在做什么。

此时,Anthropic的做法是引入“强化学习”与“行为奖励”,使模型在每一步执行中获得反馈、拥有方向感。

但此事较想象更为困难。

强化学习存在“反馈回路”:你训练出的模型,将用于产生新训练数据,若某环节出现偏差,整个链条便会偏离。

此与预训练全然不同。预训练犹如填空,目标确定;强化学习则似行走不断修正方向的迷宫,每一步踏错,皆可能令模型偏离正轨。

故Anthropic开始尝试数种解决方式。

第一种称为过程奖励(process-based reward),

不仅关注最终结果正确与否,更为模型每一步设定参照点。

与其仅奖励模型最终产出佳答,不如在其每一次推理、每一中间步骤上给予反馈。此如教师不仅审视答案正确,还考察解题过程。

第二种方法是自我验证。

Anthropic在某些数学任务与代码任务中,让模型生成答案后,自行反向验证一遍。例如编写一段证明,模型必须能自行检查逻辑有无漏洞,方可得分。

此举大幅减少模型表面正确、实际错误的情况。

第三种,是在模型的“行为链”中融入错误修正机制。

“一个模型真正卓越的标志,非其永不犯错,而是其自知错误并主动纠正。”

Anthropic使Claude在任务中途,若出现异常结果,能主动暂停、记录失败原因、重试流程。略似工作中边执行边备份,出错可回退。

Julian 坦言,这些尝试仍处早期:我们仍在探索如何令此些方法更稳定、可扩展。此即智能体需跨越之坎,关键不在能力,而在可靠性与执行稳定性。

今日的挑战非模型愚笨,而是其太易因失误而偏离轨道。

第五节|节奏加速,窗口期已启

在此深度对话中,Julian反复强调三项关键事实:

任务在延长- 每三四个月,模型能独立完成的任务长度即翻倍

模型在运作- AI已从应答问题进化至执行任务

节奏在加快- 非十年后方变,而是现时即需重构工作方式

那么,我们应如何判断此趋势?他的回答是:

勿凭情绪、热度、感觉判断AI发展至何阶段。观任务,察数据,看其究竟做了何事。

在他看来,当前市场对AI的讨论,多停留于“是否泡沫”“是否突破”等模糊议题。但前沿实验室关注的是:

模型能否完成真实任务?

完成质量有无提升?

交付后有无持续使用?

此乃Anthropic、OpenAI与Google现今内部真正重视的评估维度。

例如OpenAI推出的GDP-Val,便是让真实行业专家设计任务,由模型完成,再与真人成果对比。非视模型“答题得分”,而是察其是否具备实际工作能力。

Julian 特别指出两项指标,为当前最具参考价值者:

一是任务长度

AI能连续工作多久?是10分钟,抑或一整天?

模型完成任务时间越长,意味你可托付范围越广,节省人力越多。

二是用户留存与复用

非模型能否使用,而是众人是否愿意持续用、是否开始形成依赖。

你发布新模型,数日后用户不再使用,那此模型或仅看似强大,真正能持续提升生产力之AI,必有使用量与留存增长。

当任务长度渐增,用户使用频次渐高,则表明AI不再是“功能”,而开始成为“劳动力”。

那么,你该如何应对?

非做判断,而是做实验。

将一项你平日需做4小时的任务交付AI,试其能做多少、做多好。连续数次,你自然明了当前AI至何程度。

他表示,自己每日皆做此类尝试,每次表现皆在提升:完成更多,失败更少。

正因如此,他认为:2025年,非超级智能降临,而是我们终可重构任务。将原需人逐步完成的流程,交付模型分块处理;将以往需人工推进的工作,设计为可交代AI的清单。

非替代,而是重构“如何完成任务”的方式。

结语|非“AI超人类”,而是“AI组团队”

从AlphaGo“第37手”至今日Claude,Julian 见证了AI能力的指数级增长。

但其建议始终务实:

“勿仅关注发布会与排行榜,须察模型能否连续工作八小时无差错。勿期一次性替代,应练习将任务清单交付AI。”

更重要的是:非等待突破,而是现时便开始构建“AI+人”的协作团队。

因当任务在延长,当模型在运作,当窗口期已开启,

变革不在未来,而在当下。

参考资料:

https://www.youtube.com/watch?v=gTlxCrsUcFM&t=54s

https://ppc.land/ai-researcher-challenges-claims-of-development-slowdown-with-exponential-data

https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/

来源:官方媒体/网络新闻