当前位置：首页 > 科技资讯 > 正文

AI进展神速：任务长度翻倍，从工具到执行者的飞跃

主机测评网
科技资讯
2026-05-07
950

2025年10月25日，一位鲜少公开露面的AI顶级研究员在播客中给出了他的判断。

AI的进展没有任何放缓的迹象。每三四个月，模型就能完成双倍长度的任务。

这话出自Julian Schrittwieser，Anthropic的核心研究员，他曾领导了谷歌DeepMind的AlphaGo Zero和MuZero的研发。

这不是一场科普访谈。他来自最前沿的实验室，正目睹一个大多数人尚未意识到的现实：

大众看到的：回答对了几个问题

他看到的：模型开始完成一整天的工作

为什么察觉不到？

Julian给出的答案是：人类直觉无法理解指数级变化。

AI进展神速：任务长度翻倍，从工具到执行者的飞跃 AI进展任务长度执行者预演未来第1张

（图片来源：Julian Schrittwieser博文《再次未能理解指数增长》，链接https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/）

就像疫情初期人们低估了传播速度，AI正在走同样的路径。当模型每三、四个月能力翻倍，关键在于你能否看懂正在发生的三件事。

第一节｜模型能跑多久，才是关键

Julian Schrittwieser的职业轨迹，几乎串起了这十年人工智能的主线。

他曾让AlphaGo击败李世石，是MuZero的第一作者，如今在Anthropic负责Claude模型的推理研究。

“AI的关键，不在于能答多少题，而在于能连续完成多长时间的任务。”

在他看来，AI的进步不是一连串“功能升级”，而是任务持续时间的延长。从几秒、几分钟，到现在能处理几个小时、甚至几天的连续任务。

Julian在访谈中解释，这个指标叫task length（任务长度），是他们在Anthropic内部用来衡量模型“生产力水平”的核心标准。他们发现，每隔三四个月，任务长度就会翻倍。模型不像人类那样受疲劳影响，能持续思考、持续执行，而且出错率在长任务中反而下降。

他举了一个例子：以前的模型写一段程序，需要人类不断提示；现在，Claude已经能独立写完一个完整的应用模块，包括规划结构、调用接口、测试和修复。

这不是更聪明，而是能干更久、更稳。

就像马拉松选手，关键不是冲刺速度，而是跑完全程的耐力。

Julian认为，这种“任务耐力”的提升，比参数量更值得关注。因为这意味着模型从工具开始变成执行者。当模型能独立工作一整天，它就能像同事一样被分配任务、被追踪进度、被验证成果。

第二节｜Claude的底层能力，不是记得多

“不是每个模型都能独立完成任务，更不是每个模型都能连续工作一整天。”

Julian解释，Claude能力的本质不只是语言模型更大，而是多了一种“预演未来”的能力。

“Claude背后的关键不是参数量，而是它内部有一个‘世界模型’，能模拟未来几步可能会发生什么。”

这个“世界模型”（world model），不是在记住数据，也不是预测词。它更像是人在脑子里想象：我如果说这句话，对方可能怎么反应？那我接下来该怎么办？

Julian说，这种模型已经不是在“回答”，而是在“思考”。

这种能力其实是他在MuZero时期就开始探索的技术路线。

MuZero是DeepMind在2020年提出的强化学习模型，最大的突破在于：它不需要知道完整的规则或环境，只靠经验就能学会在脑中预测接下来的几步，并不断修正。

第三节｜从回答到接活：Claude能干事了

“Claude不是聊天机器人了，而是你可以交任务给它做的执行者。”

在Anthropic内部，他们早已不再用Claude做“答题器”，而是让它处理真实任务，比如：

写一段可运行的API代码
阅读上千字的PDF文件，总结并列出关键要点
执行一整套文档处理流程，包括改写、格式化、生成摘要

第四节｜做对一遍容易，做对十遍难

“我们并不是担心模型不够聪明，而是它能不能稳定地把任务做完、不出错、不走偏。”

第五节｜节奏在加快，窗口期已经开始

“不要靠情绪、热度、感觉来判断AI发展到了哪一步。看任务，看数据，看它到底做了什么。”

服务器教程性价比服务器免费服务器

本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543451.html

AI进展神速：任务长度翻倍，从工具到执行者的飞跃

第一节｜模型能跑多久，才是关键

第二节｜Claude的底层能力，不是记得多

第三节｜从回答到接活：Claude能干事了

第四节｜做对一遍容易，做对十遍难

第五节｜节奏在加快，窗口期已经开始

2025智驾合规：重塑行业生态，加速智能化进程

比亚迪传奇高管赵长江离职，腾势未来何去何从？

AI进展神速：任务长度翻倍，从工具到执行者的飞跃

第一节｜模型能跑多久，才是关键

第二节｜Claude的底层能力，不是记得多

第三节｜从回答到接活：Claude能干事了

第四节｜做对一遍容易，做对十遍难

第五节｜节奏在加快，窗口期已经开始

2025智驾合规：重塑行业生态，加速智能化进程

比亚迪传奇高管赵长江离职，腾势未来何去何从？

相关文章