当前位置:首页 > 科技资讯 > 正文

AI进展神速:任务长度翻倍,从工具到执行者的飞跃

2025年10月25日,一位鲜少公开露面的AI顶级研究员在播客中给出了他的判断。

AI的进展没有任何放缓的迹象。每三四个月,模型就能完成双倍长度的任务。

这话出自Julian Schrittwieser,Anthropic的核心研究员,他曾领导了谷歌DeepMind的AlphaGo Zero和MuZero的研发。

这不是一场科普访谈。他来自最前沿的实验室,正目睹一个大多数人尚未意识到的现实:

大众看到的:回答对了几个问题

他看到的:模型开始完成一整天的工作

为什么察觉不到?

Julian给出的答案是:人类直觉无法理解指数级变化。

AI进展神速:任务长度翻倍,从工具到执行者的飞跃 AI进展 任务长度 执行者 预演未来 第1张

(图片来源:Julian Schrittwieser博文《再次未能理解指数增长》,链接https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/)

就像疫情初期人们低估了传播速度,AI正在走同样的路径。当模型每三、四个月能力翻倍,关键在于你能否看懂正在发生的三件事。

第一节|模型能跑多久,才是关键

Julian Schrittwieser的职业轨迹,几乎串起了这十年人工智能的主线。

他曾让AlphaGo击败李世石,是MuZero的第一作者,如今在Anthropic负责Claude模型的推理研究。

“AI的关键,不在于能答多少题,而在于能连续完成多长时间的任务。”

在他看来,AI的进步不是一连串“功能升级”,而是任务持续时间的延长。从几秒、几分钟,到现在能处理几个小时、甚至几天的连续任务。

Julian在访谈中解释,这个指标叫task length(任务长度),是他们在Anthropic内部用来衡量模型“生产力水平”的核心标准。他们发现,每隔三四个月,任务长度就会翻倍。模型不像人类那样受疲劳影响,能持续思考、持续执行,而且出错率在长任务中反而下降。

他举了一个例子:以前的模型写一段程序,需要人类不断提示;现在,Claude已经能独立写完一个完整的应用模块,包括规划结构、调用接口、测试和修复。

这不是更聪明,而是能干更久、更稳。

就像马拉松选手,关键不是冲刺速度,而是跑完全程的耐力。

Julian认为,这种“任务耐力”的提升,比参数量更值得关注。因为这意味着模型从工具开始变成执行者。当模型能独立工作一整天,它就能像同事一样被分配任务、被追踪进度、被验证成果。

第二节|Claude的底层能力,不是记得多

“不是每个模型都能独立完成任务,更不是每个模型都能连续工作一整天。”

Julian解释,Claude能力的本质不只是语言模型更大,而是多了一种“预演未来”的能力。

“Claude背后的关键不是参数量,而是它内部有一个‘世界模型’,能模拟未来几步可能会发生什么。”

这个“世界模型”(world model),不是在记住数据,也不是预测词。它更像是人在脑子里想象:我如果说这句话,对方可能怎么反应?那我接下来该怎么办?

Julian说,这种模型已经不是在“回答”,而是在“思考”。

这种能力其实是他在MuZero时期就开始探索的技术路线。

MuZero是DeepMind在2020年提出的强化学习模型,最大的突破在于:它不需要知道完整的规则或环境,只靠经验就能学会在脑中预测接下来的几步,并不断修正。

第三节|从回答到接活:Claude能干事了

“Claude不是聊天机器人了,而是你可以交任务给它做的执行者。”

在Anthropic内部,他们早已不再用Claude做“答题器”,而是让它处理真实任务,比如:

  • 写一段可运行的API代码
  • 阅读上千字的PDF文件,总结并列出关键要点
  • 执行一整套文档处理流程,包括改写、格式化、生成摘要

第四节|做对一遍容易,做对十遍难

“我们并不是担心模型不够聪明,而是它能不能稳定地把任务做完、不出错、不走偏。”

第五节|节奏在加快,窗口期已经开始

“不要靠情绪、热度、感觉来判断AI发展到了哪一步。看任务,看数据,看它到底做了什么。”