当前位置:首页 > 科技资讯 > 正文

Meta's Language Self-Play: Revolutionizing Model Training without Data

大语言模型的瓶颈:高质量数据的稀缺已成为制约其持续学习、提升的关键障碍。

针对此挑战,Meta 推出了一种名为“语言自我博弈”(Language Self-Play,LSP)的强化学习(RL)新技术,通过让模型在无需额外数据的情况下自我优化,从而突破了这一依赖。

Meta's Language Self-Play: Revolutionizing Model Training without Data Self-Play  无数据训练 强化学习 大语言模型 第1张

论文链接:https://arxiv.org/abs/2509.07414

该方法依托自我博弈(self-play)的博弈论框架,将模型的能力比作竞技游戏中的表现,通过模型与自身的博弈生成更强策略。

在指令遵循基准测试中,使用 Llama-3.2-3B-Instruct 的实验表明,预训练模型不仅能通过自我博弈提升在挑战性任务上的性能,且效果优于数据驱动的基线模型。

自我博弈:既是挑战者,也是解题者

据论文介绍,LSP 框架中,同一预训练 LLM 被赋予两种不同身份,形成动态对抗关系。

其中,“挑战者” (Challenger)负责生成查询内容,旨在设计更具挑战性的指令以“难住”解题者,从而最小化任务奖励。研究团队设计了专用提示词(<ChallengerPrompt>),明确要求其生成符合任务类型、测试模型能力的输入。

“解题者”(Solver)则负责响应挑战者生成的查询,目标是给出高质量回答,最大化任务奖励。这里的奖励可基于结果验证的客观评分或人类偏好的主观评价。

Meta's Language Self-Play: Revolutionizing Model Training without Data Self-Play  无数据训练 强化学习 大语言模型 第2张

图|LSP Agent 在挑战者与解题者两种模式下运行。解题者不断优化对 prompt 的响应时,挑战者则设计更具挑战性的任务。这两种模式均由同一模型实现,支持持续训练,生成质量不断提升的自动生成数据。

挑战者与解题者的对抗关系可概括为前者出“难题”,后者全力以赴“破题”,在持续对抗中实现双方能力的同步提升。为了让“自我博弈”过程稳定、高效,LSP 引入了两项核心技术:

群体相对策略优化(GRPO):每次训练迭代时,挑战者先生成 N 个查询;针对每个查询,解题者生成 G 个不同回答,并分别获得任务奖励。通过计算“群体价值”,为解题者的回答质量提供评估基准,同时量化挑战者希望优化的查询难度指标。

KL 散度正则化:该技术防止模型“走偏”,确保训练模型与初始参考模型的偏差在合理范围内,避免性能波动,同时阻止挑战者生成无语义意义的查询,保证训练的有效性。

从 LSP-Zero 到 LSP:长期、稳定的自主训练

最初,研究团队提出了 LSP 的基础版本 —— LSP-Zero,这是一种纯零和博弈模式,仅依靠挑战者与解题者的对抗驱动训练,无额外质量约束。

但实验发现,LSP-Zero 存在缺陷:随着训练推进,模型易陷入“对抗性无意义游戏”。例如,在使用 OpenAssistant 的奖励模型时,解题者会出现“奖励黑客攻击”,无论挑战者的查询类型如何,都用 Python 代码回应,导致训练偏离核心目标。

为引导高质量交互体验,研究人员对 LSP-Zero 进行升级,推出加入自奖励机制的版本 LSP:引入质量自奖励,由参考模型对“挑战者查询 + 解题者回答”的质量评分,并计入双方最终奖励。自奖励采用7 分制加分标准

  • 当且仅当任务指令明确可识别;
  • 指令清晰、具体和结构良好;
  • 用户能理解解题者的响应;
  • 响应解决用户问题的大部分(无需完全完成);
  • 响应有效、全面地回答问题的核心要素;
  • 响应清晰、简明、有组织、有用;
  • 用户可能喜欢的形式与风格。

加入自奖励后,LSP 的“自我博弈”不再是零和博弈,而是转向“高质量共赢”。挑战者需生成有价值查询,解题者需给出优质回答,双方追求更高质量评分。这一改进解决了无意义对抗问题,使模型实现长期、稳定的自主训练。

为验证 LSP 有效性,研究团队以 AlpacaEval 基准和 Llama-3.2-3B-Instruct 为基础模型开展两组实验。

首先,他们将无数据的 LSP 与作为自奖励正则化消融实验的 LSP-Zero 进行对比,并与基于 Alpaca 数据通过 RL 训练的模型比较。该实验分析在 RL 数据完全缺失情况下,仅通过自我博弈策略能恢复多少基于数据训练的性能。

Meta's Language Self-Play: Revolutionizing Model Training without Data Self-Play  无数据训练 强化学习 大语言模型 第3张

图|展示了基于 GRPO(数据支持)、LSP-Zero 与 LSP(无数据支持)在 AlpacaEval 基准测试中相对于基础模型的胜率对比。所有算法在整体基准测试中均优于基础模型(最右侧条形图)。具体胜率分别为:GRPO 40.9%、LSP-Zero 40.1%、LSP 40.6%。灰色实线表示基础模型与自身对比的胜率。

通过在 AlpacaEval 数据集上计算各算法对 Llama-3.2-3B-Instruct 的胜率,包括各独立数据集表现,得到以下结果。尽管未使用任何训练数据,LSP-Zero 和 LSP 仍显著提升了基础模型的性能,整体表现与 GRPO 相当,且 LSP 模型比 LSP-Zero 模型更具优势。值得注意的是,在某些任务中(如 Vicuna 数据集),LSP-Zero 和 LSP 模型表现显著优于基础模型和 GRPO。

Meta's Language Self-Play: Revolutionizing Model Training without Data Self-Play  无数据训练 强化学习 大语言模型 第4张

图|展示了 LSP-Zero 和 LSP(无数据)在 AlpacaEval 基准测试中与初始训练模型(基于 GRPO 数据训练)的胜率对比。总体而言,LSP 表现优于 GRPO,在 Vicuna 任务中优势显著。具体胜率分别为:GRPO 40.9%、LSP-Zero 40.0%、LSP 43.1%。灰色实线表示基础模型自身的胜率。

此外,研究团队还进行了另一组实验:先使用 GRPO 训练模型,再以该模型为初始模型用 LSP 继续训练。结果显示,LSP 能进一步提升性能。LSP 对 Llama-3.2-3B-Instruct 的整体胜率从 40.9% 提升至 43.1%。在 Vicuna 模型中,LSP-Zero 将 GRPO 的胜率从 28.7% 提升至 36.3%,LSP 甚至达到 46.3%。

Meta's Language Self-Play: Revolutionizing Model Training without Data Self-Play  无数据训练 强化学习 大语言模型 第5张

不过,LSP 方法也存在不足:在 Koala 数据集中(以聊天机器人用户类型查询为主),LSP 性能略逊于 GRPO。研究团队分析认为,这是因为 LSP 生成的查询更偏向结构化、有序的风格与 Koala 数据集的松散对话场景匹配度较低。未来工作需优化查询生成的多样性。

“无数据训练”的新纪元

LSP 的提出不仅解决了大模型训练的数据依赖难题更从技术层面验证了“无数据训练”的可行性为大模型未来发展带来多重价值。

例如降低训练成本方面无需大规模收集、清洗、标注数据大幅减少了数据获取环节的人力与资源投入;在数据稀缺的应用场景下LSP 可让模型在不依赖外部数据的情况下持续优化;而且通过“自我博弈 + 自我奖励”机制模型能够长期自主训练实现自主进化。

研究团队相信一旦 AI 实现“具身”并能够收集自己的经验数据这种自我博弈框架在扩展知识方面就有希望显现出巨大潜力。