当前位置:首页 > 科技资讯 > 正文

Meta语言自我博弈:无数据训练突破大模型瓶颈

高质量训练数据的匮乏,正日益成为制约大语言模型(LLM)持续学习与能力进阶的关键瓶颈。

为此,Meta 公司率先提出了一项名为“语言自我博弈”(Language Self-Play,LSP)的创新性强化学习(RL)方案,该方法使得模型能够在不借助任何外部数据的情况下实现自我迭代与提升,从而彻底摆脱了对额外数据的依赖。

Meta语言自我博弈:无数据训练突破大模型瓶颈 语言自我博弈 强化学习 无数据训练 大语言模型 第1张

研究成果已公开发表,论文链接为:https://arxiv.org/abs/2509.07414

该方法巧妙运用了自我博弈(self-play)的博弈论框架,将模型的能力表现视作一场竞技游戏,通过模型自身内部的对决来不断催生更优的策略。

在指令遵循基准测试中,基于 Llama-3.2-3B-Instruct 模型的实验显示,仅通过自我博弈,预训练模型在复杂任务上的性能就获得了显著提升,其效果甚至超越了依赖数据驱动的基线模型。

自我博弈:挑战者与解题者的双重角色演绎

论文阐释道,在 LSP 框架下,同一个预训练大语言模型被赋予了两种截然不同的身份,从而构建出一种动态的对抗关系。

其中,“挑战者”(Challenger)主要负责生成查询指令,其核心目标是设计出难度更高、更能考验解题者能力的任务,以此最小化任务奖励。为了引导挑战者生成有效指令,研究团队设计了专用提示词(),明确要求其产出符合任务范畴、能充分检验模型能力的输入内容,这些指令既可以是基础性的,也可以是高难度或带有压力测试性质的。

“解题者”(Solver)则需对挑战者生成的查询做出回应,其目标是提供高质量答案,从而最大化任务奖励。此处的奖励既可以基于客观结果验证的分数,也可以源自人类偏好的主观评价。

Meta语言自我博弈:无数据训练突破大模型瓶颈 语言自我博弈 强化学习 无数据训练 大语言模型 第2张

图|LSP 智能体在挑战者与解题者两种模式间切换运行。当解题者持续学习优化对提示的响应时,挑战者则会设计出更具挑战性的任务。两种角色均由同一模型扮演,从而实现持续训练,并源源不断地生成质量逐步提升的自动化数据。

挑战者与解题者之间的对抗关系,简而言之就是前者不断抛出“难题”,后者竭力“破解”,在持续的博弈互动中,促使双方能力同步增强。为确保“自我博弈”过程稳定高效,LSP 引入了两项核心技术:

群体相对策略优化(GRPO):在每次训练迭代中,挑战者首先生成 N 个查询指令;针对每个查询,解题者生成 G 个不同回答,并各自获得对应的任务奖励。随后,通过计算“群体价值”,不仅为解题者回答质量提供了评估基准,也帮助团队量化了挑战者旨在优化的查询难度指标。

KL 散度正则化:此项技术主要用于防止模型“偏离轨道”。一方面,它能确保训练后的模型不会与初始参考模型产生过大偏差,避免性能不稳定;另一方面,它能有效阻止挑战者生成无实际语义的“乱码”式查询,保障训练过程的有效性。

从 LSP-Zero 到 LSP:实现长期稳定的自主训练演进

研究初期,团队提出了 LSP 的基础版本——LSP-Zero,这是一种纯粹的零和博弈模式,仅依靠挑战者与解题者之间的对抗驱动训练,缺乏额外的质量约束机制。

但实验发现,LSP-Zero 存在明显缺陷:随着训练推进,模型容易陷入“对抗性无意义循环”。例如,在使用 OpenAssistant 的奖励模型时,解题者会出现“奖励黑客”行为——无论挑战者提出何种查询,都以 Python 代码回应,以此钻奖励规则的空子,导致训练偏离提升核心能力的根本目标。

为引导博弈过程走向高质量的交互体验,研究人员对 LSP-Zero 进行了升级,推出了集成自奖励机制的 LSP 版本:引入质量自奖励,由参考模型对“挑战者查询 + 解题者回答”的整体质量进行评分,并将此分数纳入双方的最终奖励计算。自奖励采用7 分制多维评估标准,从七个层面全面评判交互质量:

  • 用户的任务能否从指令中清晰识别;
  • 指令是否明确、具体且结构良好;
  • 解题者的响应是否易于用户理解;
  • 响应是否解决了用户问题的大部分(无需完全解决);
  • 响应是否高效、全面地回答了问题核心;
  • 响应是否清晰、简洁、有条理且实用;
  • 响应的形式与风格是否为用户所青睐。

加入自奖励后,LSP 的“自我博弈”不再是单纯的零和对抗,而是转向“高质量协同共赢”。挑战者需要生成有价值的查询,解题者需给出优质回答,双方共同追求更高的质量评分。这一改进有效解决了无意义对抗问题,使得模型能够实现长期、稳定的自主训练。

为验证 LSP 的有效性,研究团队以 AlpacaEval 基准和 Llama-3.2-3B-Instruct 基础模型为核心,开展了两组对照实验。

首先,他们将无需数据的 LSP 与作为自奖励正则化对比的 LSP-Zero 进行比较,并将其与基于 Alpaca 数据通过 RL 训练的模型进行对比。该实验旨在探究,在完全缺失 RL 训练数据的情况下,仅依靠自我博弈策略能恢复多少基于数据训练的性能水平。

Meta语言自我博弈:无数据训练突破大模型瓶颈 语言自我博弈 强化学习 无数据训练 大语言模型 第3张

图|展示了基于 GRPO(有数据支持,黄色条形图)、LSP-Zero 与 LSP(无数据支持,红色和蓝色条形图)在 AlpacaEval 基准测试中相对于基础模型 Llama-3.2-3B-Instruct 的胜率对比。所有方法在整体基准测试中均优于基础模型(最右侧条形图)。具体胜率分别为:GRPO 40.9%、LSP-Zero 40.1%、LSP 40.6%。灰色实线表示基础模型与自身对比的基准胜率。

通过在 AlpacaEval 数据集上计算各方法对基础模型的胜率,他们发现:尽管未使用任何训练数据,LSP-Zero 和 LSP 仍显著提升了基础模型的性能,其整体表现与 GRPO 相当,而 LSP 模型比 LSP-Zero 更具优势。值得注意的是,在部分任务(如专注于对话式开放式指令的 Vicuna 数据集)中,LSP-Zero 和 LSP 模型的最终表现明显优于基础模型和 GRPO。这是因为挑战者生成的提示本身具有对话属性,与任务需求高度契合,凸显了 LSP 在特定场景下的独特优势。

Meta语言自我博弈:无数据训练突破大模型瓶颈 语言自我博弈 强化学习 无数据训练 大语言模型 第4张

图|展示了 LSP-Zero 和 LSP(无数据,红色与蓝色柱状图)在 AlpacaEval 基准测试中,与初始训练模型(基于 GRPO 数据训练,黄色柱状图)的胜率对比。总体而言,LSP 表现优于 GRPO,在 Vicuna 任务中优势尤为突出。具体胜率分别为:GRPO 40.9%、LSP-Zero 40.0%、LSP 43.1%。灰色实线表示基础模型自身的胜率基准。

此外,团队还进行了另一组实验:先使用 GRPO 训练模型,再以该模型为起点,用 LSP 继续训练。结果显示,LSP 能在已有基础上进一步挖掘性能潜力。LSP 对基础模型的整体胜率从 40.9% 提升至 43.1%。在 Vicuna 任务中,LSP-Zero 将 GRPO 的胜率从 28.7% 提升至 36.3%,而 LSP 甚至进一步达到了 46.3%。

Meta语言自我博弈:无数据训练突破大模型瓶颈 语言自我博弈 强化学习 无数据训练 大语言模型 第5张

当然,LSP 方法也存在局限:在以聊天机器人用户查询为主的 Koala 数据集中,其性能略低于 GRPO。研究团队分析,这可能是因为 LSP 生成的查询更偏向结构化、有序的风格,与 Koala 数据集的松散对话场景匹配度较低,未来工作需进一步优化查询生成的多样性以适应不同场景。

无数据训练:开启模型进化的新篇章

LSP 的提出,不仅破解了大模型训练的数据依赖难题,更从技术层面实证了“无数据训练”的可行性,为大模型的未来发展注入了多重价值。

例如,在训练成本方面,无需大规模收集、清洗和标注数据,极大减少了数据获取环节的人力与资源消耗;在数据稀缺的应用领域,LSP 可使模型在不依赖外部数据的情况下持续优化;更重要的是,通过“自我博弈 + 自我奖励”机制,模型能够实现长期自主训练,迈向自主进化的新阶段。

研究团队坚信,一旦人工智能实现“具身化”,并能自主收集经验数据,这种自我博弈框架在扩展知识边界方面将展现出巨大的潜力。