Meta Superintelligence Labs带来全新力作!LLM学会「自我迭代改进」:仅需单步训练,推理却能实现多步优化。在数学、工具调用及多轮任务中,ExIt持续增强模型表现,MLE-bench上的性能较GRPO提升约22%。
Meta超级实验室「Meta Superintelligence Labs,MSL」发表新论文!
如果你持续要求大语言模型「自我改进」,会发生什么?
上周,MSL的三位成员在ArXiv上传了一篇论文,探讨了如何利用强化学习(RL)高效微调大语言模型。
传送门:https://www.arxiv.org/abs/2509.04575
此次,LLM实现了迭代自我改进的推理过程。
训练具备迭代自我改进能力的模型,成本高昂。
最直接的方法是训练模型执行K步自我改进,但这会导致每个训练回合的轨迹步数膨胀K倍。
他们提出了一种新方法——探索迭代(Exploratory Iteration,ExIt)。
这是一种基于RL的自动课程学习方法。
通过「回收利用」大语言模型先前回合中生成的回答,新方法将这些回答作为新的起点,用于自我改进或自我发散,从而逐步扩展和丰富训练分布。
探索迭代(ExIt)策略概览
DeepSeek的强化学习微调方法GRPO,性能强劲,与之前的PPO方法相比减少了资源需求。
与PPO不同,GRPO不使用学习到的价值函数计算基线项,而是使用一组G条蒙特卡洛轨迹估计每个初始提示m的基线。
在此过程中,「可学习性分数」在训练过程中自然产生。
在决定下一个训练任务时,ExIt的课程机制会优先抽取那些在GRPO中表现出更高回报方差的部分历史。
通过这种自举任务空间的自动课程,模型学会多步自我改进,但训练仅需单步任务。
为了抵消强化学习减少输出多样性的倾向,研究者直接纳入了寻求多样性的组件:发散改进(self-divergence)。
以概率p_div,自我迭代步成为自我发散步。
在这一步中,策略被提示在先前解决方案的基础上进行改进,同时显著偏离它(见下列提示)。
他们发现:
发散步能够从模型中诱导出有意义的不同响应,当整合到ExIt策略中时,可以增加任务空间的覆盖范围。
在单轮(竞赛数学问题)和多轮(BFCLv3多轮任务)场景中,以及MLE-bench中,研究者考察了ExIt的影响。
表1展示了在保留的任务实例上对ExIt及其消融实验和GRPO基线的评估。数学结果是对所有测试分割的平均值。所有结果都是在3次训练运行后经过16次改进步骤的性能的均值和标准差,以及从初始响应到经过K次自我改进步骤后的最终响应之间的净百分比改进(ΔK)。
在MLE-bench中,大语言模型在搜索框架下运行,以产生针对真实Kaggle竞赛的解决方案。
在这些评估设置中,与GRPO相比,ExIt产生的模型在推理时具有更强的自我改进能力。
第一作者Minqi Jiang于今年1月加入Meta,担任高级研究科学家,专注于构建超级智能体。
他从泛化、人机协同与开放式学习三个视角研究「既有用、又符合人类价值」的智能体。
在谷歌DeepMind担任研究科学家期间,他在Autonomous Assistants团队开始了这项研究。
... ... ... ... ... ... ... ... ... ... ... ... ... ...本文由主机测评网于2026-04-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440972.html