当前位置：首页 > 科技资讯 > 正文

Meta新突破：LLM实现自我迭代改进，性能提升22%

主机测评网
科技资讯
2026-04-28
617

Meta Superintelligence Labs带来全新力作！LLM学会「自我迭代改进」：仅需单步训练，推理却能实现多步优化。在数学、工具调用及多轮任务中，ExIt持续增强模型表现，MLE-bench上的性能较GRPO提升约22%。

Meta超级实验室「Meta Superintelligence Labs，MSL」发表新论文！

如果你持续要求大语言模型「自我改进」，会发生什么？

上周，MSL的三位成员在ArXiv上传了一篇论文，探讨了如何利用强化学习（RL）高效微调大语言模型。

Meta新突破：LLM实现自我迭代改进，性能提升22% LLM 自我改进强化学习 MLE-Bench 第1张

传送门：https://www.arxiv.org/abs/2509.04575

此次，LLM实现了迭代自我改进的推理过程。

自我改进决策流程+GRPO

训练具备迭代自我改进能力的模型，成本高昂。

最直接的方法是训练模型执行K步自我改进，但这会导致每个训练回合的轨迹步数膨胀K倍。

他们提出了一种新方法——探索迭代（Exploratory Iteration，ExIt）。

这是一种基于RL的自动课程学习方法。

通过「回收利用」大语言模型先前回合中生成的回答，新方法将这些回答作为新的起点，用于自我改进或自我发散，从而逐步扩展和丰富训练分布。

Meta新突破：LLM实现自我迭代改进，性能提升22% LLM 自我改进强化学习 MLE-Bench 第2张

探索迭代（ExIt）策略概览

DeepSeek的强化学习微调方法GRPO，性能强劲，与之前的PPO方法相比减少了资源需求。

与PPO不同，GRPO不使用学习到的价值函数计算基线项，而是使用一组G条蒙特卡洛轨迹估计每个初始提示m的基线。

在此过程中，「可学习性分数」在训练过程中自然产生。

Meta新突破：LLM实现自我迭代改进，性能提升22% LLM 自我改进强化学习 MLE-Bench 第3张

在决定下一个训练任务时，ExIt的课程机制会优先抽取那些在GRPO中表现出更高回报方差的部分历史。

Meta新突破：LLM实现自我迭代改进，性能提升22% LLM 自我改进强化学习 MLE-Bench 第4张

通过这种自举任务空间的自动课程，模型学会多步自我改进，但训练仅需单步任务。

为了抵消强化学习减少输出多样性的倾向，研究者直接纳入了寻求多样性的组件：发散改进（self-divergence）。

以概率p_div，自我迭代步成为自我发散步。

在这一步中，策略被提示在先前解决方案的基础上进行改进，同时显著偏离它（见下列提示）。

Meta新突破：LLM实现自我迭代改进，性能提升22% LLM 自我改进强化学习 MLE-Bench 第5张

他们发现：

发散步能够从模型中诱导出有意义的不同响应，当整合到ExIt策略中时，可以增加任务空间的覆盖范围。

MLE-Bench表现优于GRPO 22%

在单轮（竞赛数学问题）和多轮（BFCLv3多轮任务）场景中，以及MLE-bench中，研究者考察了ExIt的影响。

Meta新突破：LLM实现自我迭代改进，性能提升22% LLM 自我改进强化学习 MLE-Bench 第6张

表1展示了在保留的任务实例上对ExIt及其消融实验和GRPO基线的评估。数学结果是对所有测试分割的平均值。所有结果都是在3次训练运行后经过16次改进步骤的性能的均值和标准差，以及从初始响应到经过K次自我改进步骤后的最终响应之间的净百分比改进(ΔK)。

在MLE-bench中，大语言模型在搜索框架下运行，以产生针对真实Kaggle竞赛的解决方案。

在这些评估设置中，与GRPO相比，ExIt产生的模型在推理时具有更强的自我改进能力。

作者简介

第一作者Minqi Jiang于今年1月加入Meta，担任高级研究科学家，专注于构建超级智能体。

Meta新突破：LLM实现自我迭代改进，性能提升22% LLM 自我改进强化学习 MLE-Bench 第7张

他从泛化、人机协同与开放式学习三个视角研究「既有用、又符合人类价值」的智能体。

在谷歌DeepMind担任研究科学家期间，他在Autonomous Assistants团队开始了这项研究。

... ... ... ... ... ... ... ... ... ... ... ... ... ...

云服务器免费vps

本文由主机测评网于2026-04-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260440972.html

Meta新突破：LLM实现自我迭代改进，性能提升22%

自我改进决策流程+GRPO

MLE-Bench表现优于GRPO 22%

作者简介

YouTube：将大模型“瘦身”至手机，实时生成惊艳特效

英特尔高层调整：新领导阵容亮相

Meta新突破：LLM实现自我迭代改进，性能提升22%

自我改进决策流程+GRPO

MLE-Bench表现优于GRPO 22%

作者简介

YouTube：将大模型“瘦身”至手机，实时生成惊艳特效

英特尔高层调整：新领导阵容亮相

相关文章