当前位置:首页 > 科技资讯 > 正文

ROVER:随机策略价值评估,引领大语言模型推理革命

论文第一作者何浩然是香港科技大学博士生,致力于探索强化学习和基础模型等前沿领域,旨在通过经验和奖励推动超级智能的发展。共同第一作者叶语霄同样来自香港科技大学,担任一年级博士生。而通讯作者潘玲教授则来自香港科技大学电子及计算机工程系、计算机科学与工程系,担任助理教授。

在探讨大语言模型(LLM)的数学推理任务时,基于可验证奖励的强化学习(RLVR)已成为提升模型推理能力的重要途径。然而,当前的主流方法,如PPO和GRPO等,仍依赖于为传统RL场景设计的策略梯度更新学习目标,本质上可归纳为策略迭代过程,即策略评估与策略改进的不断循环。这些方法常面临训练不稳定、多样性丧失及调参复杂等挑战。

那么,针对LLM推理任务,是否存在一种更简洁、更本质的解决方法呢?

香港科技大学联合阶跃及快手等团队给出了一个令人瞩目的答案:只需对一个完全随机的策略进行价值评估,即可找到最优推理路径。他们因此提出了ROVER(Random Policy Valuation for Diverse Reasoning),以极简思路颠覆传统范式,跳过传统强化学习推理的策略迭代循环。

ROVER在多项数学推理基准上显著超越了现有方法,并以“极简主义”实现了高质量与高多样性并重的推理生成。

目前,论文、代码及模型均已开源。

ROVER:随机策略价值评估,引领大语言模型推理革命 ROVER 大语言模型 强化学习 数学推理 第1张

ROVER:随机策略价值评估,引领大语言模型推理革命 ROVER 大语言模型 强化学习 数学推理 第2张

在高难度任务如AIME24、AIME25及HMMT25上,ROVER相较于传统方法大幅提高了pass@1(+8.2)和pass@256(+16.8),并在多种多样性指标上达到了新高度(+17.6%)。此外,ROVER无需额外维护价值网络或基模型计算KL,从而更加轻量。

传统强化学习的“痛点困局”:迭代复杂,代价高昂

在LLM推理优化中,主流方法(如PPO、GRPO)可被广义策略迭代刻画——反复执行“策略评估(计算当前策略价值,如估计优势函数)”与“策略改进(更新策略)”。尽管这些方法能提升性能,却存在核心痛点:

  • 训练稳定性差:优化目标“非定常”,模型易崩溃。近期工作通过叠加复杂技巧如KL正则约束、裁剪重要性采样、熵监控等,但这些“补丁”让训练如履薄冰,稍有不慎即引发“熵坍塌”(策略多样性骤降,陷入单一推理路径)。
  • PPO需维护独立的价值网络预测状态价值,并反复执行策略迭代:GRPO等方法也需维护基模型计算KL。这种“重资产”模式加重了RL优化的计算开销。
  • 推理多样性流失:为质量牺牲探索,pass@k性能饱和。基于奖励最大化的传统强化学习方法使模型过度追求单次推理正确率,牺牲了策略探索能力——模型仅生成少数几种推理路径,牺牲了pass@k(多次推理覆盖更多可行解的能力)。

ROVER的“极简革命”:随机策略的Q值足以指导最优决策

研究团队首先指出,大语言模型推理任务可被建模为有限时域马尔可夫决策过程(MDP),具备以下关键特性:

  • 确定性状态转移;
  • 树状结构(每个状态有唯一父节点,不存在不相交子树);
  • 二元稀疏奖励(正确/错误)。

这与传统RL任务(如Atari游戏、机器人控制)中常见的随机性状态转移、循环图结构、中间奖励等复杂设定截然不同。

“我们是否在用过于复杂的工具解决一个结构上更简单的问题?”——这成为ROVER研究的出发点。

在这一简单结构中,研究团队证明了一个颠覆性结论:均匀随机策略的Q值直接指向最优策略。

...(此处省略部分数学证明内容)...

ROVER算法流程:三步极简,免去迭代

(1)Q值估计:

...(此处省略部分算法描述内容)...

(2)策略构建:

...(此处省略部分算法描述内容)...

(3)训练目标:

...(此处省略部分算法描述内容)...

实验结果:全面领先,多样性显著提升

...(此处省略部分实验结果内容)...

启示与展望

...(此处省略部分总结与展望内容)...