2025年10月25日,一位鲜少公开露面的AI顶级研究员在播客中给出了他的判断。
AI的进展没有任何放缓的迹象。每三四个月,模型就能完成双倍长度的任务。
这话出自Julian Schrittwieser,Anthropic的核心研究员,他曾领导了谷歌DeepMind的AlphaGo Zero和MuZero的研发。
这不是一场科普访谈。他来自最前沿的实验室,正目睹一个大多数人尚未意识到的现实:
大众看到的:回答对了几个问题
他看到的:模型开始完成一整天的工作
为什么察觉不到?
Julian给出的答案是:人类直觉无法理解指数级变化。
(图片来源:Julian Schrittwieser博文《再次未能理解指数增长》,链接https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/)
就像疫情初期人们低估了传播速度,AI正在走同样的路径。当模型每三、四个月能力翻倍,关键在于你能否看懂正在发生的三件事。
Julian Schrittwieser的职业轨迹,几乎串起了这十年人工智能的主线。
他曾让AlphaGo击败李世石,是MuZero的第一作者,如今在Anthropic负责Claude模型的推理研究。
“AI的关键,不在于能答多少题,而在于能连续完成多长时间的任务。”
在他看来,AI的进步不是一连串“功能升级”,而是任务持续时间的延长。从几秒、几分钟,到现在能处理几个小时、甚至几天的连续任务。
Julian在访谈中解释,这个指标叫task length(任务长度),是他们在Anthropic内部用来衡量模型“生产力水平”的核心标准。他们发现,每隔三四个月,任务长度就会翻倍。模型不像人类那样受疲劳影响,能持续思考、持续执行,而且出错率在长任务中反而下降。
他举了一个例子:以前的模型写一段程序,需要人类不断提示;现在,Claude已经能独立写完一个完整的应用模块,包括规划结构、调用接口、测试和修复。
这不是更聪明,而是能干更久、更稳。
就像马拉松选手,关键不是冲刺速度,而是跑完全程的耐力。
Julian认为,这种“任务耐力”的提升,比参数量更值得关注。因为这意味着模型从工具开始变成执行者。当模型能独立工作一整天,它就能像同事一样被分配任务、被追踪进度、被验证成果。
“不是每个模型都能独立完成任务,更不是每个模型都能连续工作一整天。”
Julian解释,Claude能力的本质不只是语言模型更大,而是多了一种“预演未来”的能力。
“Claude背后的关键不是参数量,而是它内部有一个‘世界模型’,能模拟未来几步可能会发生什么。”
这个“世界模型”(world model),不是在记住数据,也不是预测词。它更像是人在脑子里想象:我如果说这句话,对方可能怎么反应?那我接下来该怎么办?
Julian说,这种模型已经不是在“回答”,而是在“思考”。
这种能力其实是他在MuZero时期就开始探索的技术路线。
MuZero是DeepMind在2020年提出的强化学习模型,最大的突破在于:它不需要知道完整的规则或环境,只靠经验就能学会在脑中预测接下来的几步,并不断修正。
“Claude不是聊天机器人了,而是你可以交任务给它做的执行者。”
在Anthropic内部,他们早已不再用Claude做“答题器”,而是让它处理真实任务,比如:
“我们并不是担心模型不够聪明,而是它能不能稳定地把任务做完、不出错、不走偏。”
“不要靠情绪、热度、感觉来判断AI发展到了哪一步。看任务,看数据,看它到底做了什么。”
本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543451.html