进入2025年,人工智能领域的竞争核心正经历一场深刻变革——从以往的性能指标竞赛转向智能体的任务执行能力。无论是xAI还是Anthropic,行业领导者在发布新产品时无不强调同一关键特性:自主完成复杂且长期的任务。
这揭示了一个明确共识:AI的下一个主战场,将是通用智能体。
然而现实却充满挑战。
除编程领域外,智能体的实际应用仍寥寥无几。核心瓶颈之一在于反馈机制的困境:要使预训练模型蜕变为强大智能体,必须通过与世界互动获得反馈来学习。但现有的反馈机制,要么效果有限,要么成本高昂。
2025年10月,Meta等机构发表的论文《Agent Learning via Early Experience》提出了第三条路径——“中训练”范式,试图以一种经济高效的反饋形式,为智能体训练搭建关键桥梁。(论文链接:https://arxiv.org/abs/2510.08558)
在深入探讨Meta的解决方案前,我们需先理解反馈困境的本质。目前主流的智能体后训练方法有两种,但其反馈形式各有难以克服的“昂贵”代价。
第一种方法是模仿学习,即监督微调(SFT)。
它依赖一种“昂贵的静态反馈”。这种方法让智能体像学生背诵课文一样,模仿人类专家的操作演示数据。
高质量专家数据本身难以大规模生产,可扩展性低。但更致命的代价在于能力局限:这种静态反馈只告诉模型“应该怎么做”,却从不教授“不这么做会有什么后果”。
模型学不到自身行为与环境结果之间的因果联系,导致其泛化能力极差。一旦在真实操作中遇到训练数据之外的情况,智能体便会变得极其脆弱,无法适应环境的多样性。
第二条路径是强化学习(RL),它依赖一种“复杂的动态反馈”。
它让智能体通过环境返回的奖励信号进行试错学习。尽管可以无限试错,但在许多情况下效率低下,原因在于它严重依赖于环境中清晰、可验证的奖励信号。
然而,在许多真实世界的复杂任务(如网页浏览、多步骤工具使用)中,奖励信号要么缺失,要么非常稀疏和延迟,导致训练极其困难和低效。
例如,在多步骤的工具使用或长远规划任务中,奖励往往在漫长的操作序列结束后才会出现,甚至非常模糊,这使得“功劳分配”变得异常困难,训练过程既不稳定又极其低效。
当前绝大多数真实世界的语言智能体环境,都缺乏支持大规模RL训练的成熟基础设施,如可靠的模拟器、标准化的重置机制和可扩展的评估平台。因此,其应用仍然高度依赖精心设计的奖励函数或人工调整的训练流程。
结果便是一个尴尬困局:简单的方法不够强大,强大的方法难以应用。
那么,是否存在一种方式,能让我们在不依赖复杂奖励模型的前提下,让智能体预先“演练”与世界互动,从而为最终成为经验丰富的决策者奠定基础?
Meta的这篇论文提出了名为“早期经验”的“中训练”范式,试图构建一座跨越模仿学习与强化学习之间鸿沟的“弥合之桥”。
它源于一个巧妙洞察:智能体自己探索产生的状态变化,本身就是宝贵的学习信号。
这个思想很直接:既然专家数据不够用,奖励数据太稀缺,为何不让智能体从自己的“试错”中学习?即便没有奖励,智能体每次行动后环境发生的状态变化,就是一种极具价值、可扩展且免费的监督信号。
例如:让智能体学习订机票,传统模仿学习只给它看成功订票的录屏。而“早期经验”会让它主动尝试:点错日期会怎样?填错证件号会怎样?每次尝试后观察环境的反应,比如报错信息、页面跳转、表单状态变化等。
这些由智能体自己行为驱动的“未来状态”,就是最宝贵的免费反馈。
为将这一理念落地,研究者设计了两种具体、可操作的训练策略:隐式世界建模和自我反思。
隐式世界建模 (IWM) 的逻辑是让智能体学会预测“如果我这么做,世界会变成什么样?”。
具体步骤如下:
自我尝试:在设定好的专家行为轨迹的每个状态下,让智能体生成多种备选动作(比如8个不同选择);
记录数据:在真实环境中执行这些动作,记录每个动作导致的真实环境响应,构建大量(状态、动作、结果状态)的数据对;
微调训练预测能力:训练智能体根据“当前状态+动作”来预测“未来状态”,然后使用标准的语言模型loss(下一token预测)进行优化;
简言之,就是通过大量的“探索”和观察后果,让智能体在没有奖励的情况下,自己领悟世界的运行规律。
自我反思 (SR) 的逻辑是让智能体学会解释“为什么专家的做法比我的其他想法更好”。
具体步骤如下:
自我尝试:同时观察专家动作和智能体备选动作的结果对比;
教练点评:使用强大的LLM生成详细解释,然后让智能体反思,分析为什么专家选择在权衡各种因素(任务进展、约束条件、效率等)后是最优的。
微调训练预思考能力:训练智能体学会先生成这种反思推理,再输出正确动作,通过标准的序列生成loss学习“先思考再决策”的模式。
(论文给出的自我反思Prompt)
比如,在购物任务中,专家选择点击15美元蓝衬衫,备选是30美元红衬衫。生成的反思可能是:“虽然红衬衫符合颜色偏好,但超出了20美元预算限制。蓝衬衫同时满足款式和预算要求。”
两种方法殊途同归,都是让智能体从自己的行为后果中学习,无需外部奖励就能获得丰富的监督信号。
经过评测,这种方法确实有效。
研究者在覆盖了embodied navigation、网页浏览、多轮工具使用、长远规划等8个多样化的环境中,对Llama、Qwen等多种模型家族进行了测试,结果显示:
● 直接效果:平均成功率比传统模仿学习提升9.6%
● 泛化能力:在未见过的任务上表现提升9.4%
● RL潜力:作为强化学习的初始化时,最终性能提升最多6.4%
最后一点尤为重要:经过“早期经验”训练的智能体为后续强化学习打下了更好基础,证明了“中训练”确实起到了桥梁作用。
值得注意的是,这些提升在不同复杂度的环境中都保持稳定。
无论是动作空间相对简单的embodied navigation,还是复杂的网页交互任务,“早期经验”都能带来一致的性能改进。
这个看似简单的想法为何如此有效?答案来自今年AI领域的一个重要理论发现。
谷歌DeepMind今年在ICML发表的研究《通用Agent包含世界模型》证明了一个关键结论:所有能够成功处理复杂、多步骤任务的智能体,内部都必须拥有某种“世界模型”,也就是对环境运行规律的准确理解。研究进一步发现,智能体的性能越强,其掌握的世界模型就必须越精确。
这个发现从理论上解释了传统模仿学习的根本局限:它只学习从“状态”到“行为”的浅层映射。
而智能体要完成的是复杂的长程任务,需要在动态环境中通过一系列相互关联的决策达成目标。这要求它不仅知道“做什么”,更要理解“为什么这么做”和“这么做会怎样”。
“早期经验”正是在补这堂关键的课。通过让智能体大量观察“如果我这样做会怎样”,它开始建立起对世界的因果理解。有了这种理解作为基础,无论是提升泛化能力,还是为后续强化学习做准备,都变得水到渠成。
这项工作也对“中训练”的价值给出了有效证明。
传统AI训练是“预训练+微调”的二段式。但对于需要与世界深度交互的智能体,我们可能需要“预训练+中训练+后训练”的三段式:
预训练阶段:学习语言和知识,掌握基础能力;
中训练阶段:理解世界运行规律,建立因果模型;
后训练阶段:在具体环境中优化策略和目标。
这种三段式训练范式,可能是通往真正通用智能体的必经之路。想训练好智能体,不能急于求成,必须给它时间和机会,先理解世界,再改变世界。让智能体从被动的模仿者,成长为主动的探索者,最终蜕变为智能的决策者。
“早期经验”的成功,实际上还揭示了另一条ScalingLaw的可能性。
Test Time Compute(测试时计算),是由GPT-o1掀起的一个新范式。它本质上是通过延长推理阶段的计算深度来增加模型能力,但这种做法在训练阶段同样适用,即通过延长“后训练”的深度来释放模型潜力。
这也是为什么在TTC革命中,强化学习被如此强调的原因。因为强化学习就是在训练侧增加深度的最佳方式。
而在“早期经验”这个例子中,通过大量的自我递归和反思训练,一个700M参数的小模型竟然能够在某些任务上超越比自己大十几倍参数量的大模型。
这其实说明,我们对TestTimeCompute的利用还远未达到极致。
过去有大量研究表明,即使将当前模型的参数减少一半,甚至更多,对最终效果的影响都微乎其微。这说明模型中存在大量的“冗余参数”,它们并没有为实际的智能行为做出贡献。
而通过“早期经验”这样的自我递归训练方式,我们实际上是在极限化每个参数的潜力。
在这里,隐式世界建模让模型反复练习状态预测,这个过程迫使原本只用于文本生成的参数开始承担环境建模的职责。自我反思训练则让模型学会多角度思考,原本简单的“输入-输出”映射变成了复杂的“输入-推理-输出”过程,更多参数被调动起来参与决策。
这种通过自我递归释放参数效率的做法,可能预示着一个新的Scaling Law。传统的扩展方式是简单粗暴地增加参数量,但从GPT-5、Grok等一系列模型看,这种做法的边际收益递减很快。
我们也许需要一个新的,属于Test Time Compute的Scaling Law。它或许可以把当下臃肿的模型改造成更高效、更被激活的模型。
“早期训练”的成功,正是用一种极致的、只有两层的神经网络,揭示了这条ScalingLaw的可行性。
论文地址:[2510.08558] Agent Learning via Early Experience
(原标题:《别卷刷榜了!AI Agent的下一个战场是“中训练”|Meta最新论文解读》)
本文由主机测评网于2026-01-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260115825.html