当前位置:首页 > 科技资讯 > 正文

ROVER:极简强化学习方法革新大语言模型数学推理

本论文的第一作者何浩然,现为香港科技大学博士生,专注研究方向包括强化学习与基础模型等领域,旨在通过经验与奖励机制激发超级智能的潜力。共同第一作者叶语霄系香港科技大学一年级博士研究生。通讯作者为香港科技大学电子及计算机工程系、计算机科学与工程系助理教授潘玲。

在大语言模型(LLM)执行数学推理任务时,基于可验证奖励的强化学习(RLVR)已成为提升模型推理效能的关键途径。然而,主流技术如PPO、GRPO等仍依赖于为传统RL场景设计的策略梯度更新目标,其本质可由策略迭代(policy improvement)刻画,即涵盖策略评估(policy evaluation)与策略改进(policy improvement)的循环过程。这类方法常遭遇训练不稳定、多样性缺失、参数调整复杂等挑战。

那么,针对LLM推理任务,是否存在一种更简洁、更根本的解决方案?

香港科技大学联合阶跃以及快手等团队提出了一个令人瞩目的答案:仅需对一个完全随机策略进行价值评估,便足以定位最优推理路径。他们由此推出ROVER(Random Policy Valuation for Diverse Reasoning),以极简理念颠覆传统范式,跳过传统强化学习推理中的策略迭代(policy improvement)循环。

ROVER不仅在多个数学推理基准测试中显著超越现有方法,更以「极简主义」实现高质量与高多样性并存的推理生成。

目前,相关论文、代码及模型均已开源。

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第1张

  • 论文地址:https://arxiv.org/abs/2509.24981
  • 论文代码: https://github.com/tinnerhrhe/ROVER

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第2张

在AIME24、AIME25以及HMMT25等高难度任务中,ROVER相比传统方法显著提升了pass@1(+8.2)和pass@256(+16.8),并在多种多样性指标上达到新高(+17.6%)。同时,ROVER无需额外维护价值网络(value network)或基模型(reference model)来计算KL散度,从而更加轻量化。

传统强化学习的「困境」:迭代复杂,成本高昂

在LLM推理优化中,主流方法(如PPO、GRPO)可被广义策略迭代(Generalized Policy Iteration)描述——反复执行「策略评估(计算当前策略价值,如估计优势函数advantage)」与「策略改进(更新策略[数学公式])」。尽管这些方法能提升性能,但存在核心问题:

  • 训练稳定性差:优化目标「非定常」,模型易崩溃。近期工作通过叠加复杂技巧如KL正则约束、裁剪重要性采样、熵监控等缓解问题。这些「补丁」使训练如履薄冰,稍有不慎便引发「熵坍塌」(策略多样性骤降,陷入单一推理路径)。
  • PPO需维护独立的价值网络预测状态价值,并反复执行策略迭代:GRPO等方法也需要维护基模型(reference model)计算KL。这种「重资产」模式增加了RL优化的计算开销。
  • 推理多样性流失:为质量牺牲探索,pass@k性能饱和。基于奖励最大化的传统强化学习方法会使模型过度追求单次推理正确率,削弱策略探索能力——模型仅生成少数几种推理路径,损害了pass@k(多次推理覆盖更多可行解的能力)。

ROVER的「极简革命」:随机策略的Q值足以指导最优决策

研究团队首先指出,大语言模型推理任务可建模为有限时域马尔可夫决策过程(MDP),具有以下关键特征:

  • 确定性状态转移;
  • 树状结构(每个状态有唯一父节点,不存在不相交子树);
  • 二元稀疏奖励(正确/错误)。

这与传统RL任务(如Atari游戏、机器人控制)中常见的随机性状态转移、循环图结构、中间奖励等复杂设定形成鲜明对比。

「我们是否在用过于复杂的工具,解决一个结构上更简单的问题?」——这成为ROVER研究的起点。

在这一简单结构中,研究团队证明了一个颠覆性结论:均匀随机策略的Q值,直接指向最优策略。

设环境为有限时域、树形状态空间、二元奖励的MDP,

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第3张

为均匀随机策略(每个动作选择概率为1/|A|),

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第4张

为其Q值。则贪心策略(如下所示)就是最优策略!

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第5张

证明直观:树形结构中,若某动作

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第6张

的子树存在正确解答,则

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第7张

;反之

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第8张

。因此,贪心选择

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第9张

值最大的动作,必然导向包含正确解答的路径。

因此,策略学习过程可以简化为下图形式。

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第10张

ROVER算法流程:三步极简,免去迭代

(1)Q值估计:

ROVER通过广义贝尔曼方程计算均匀随机策略下状态-动作对的

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第11张

值,因此方程用均值算子表达:

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第12张

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第13张

为奖励,s"为执行动作a后的新状态,V为动作空间。

(2)策略构建:

尽管贪心选择可保证最优性,却可能丧失多样性。为此,ROVER引入基于

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第14张

值的softmax采样:

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第15张

其中

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第16张

是温度系数,控制探索程度。这种方式既保留了高价值路径的优先级,又能探索多条有效推理路线,显著提升pass@k表现。

(3)训练目标:

在实际实现中,ROVER还引入了:

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第17张

函数内化于LLM参数,无需训练额外价值网络:

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第18张

这种「自监督」式参数化,让模型学习「相对改进」而非「绝对价值」,既减少计算量,又提升稳定性。

组内奖励中心化,降低方差,即

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第19张

。避免高方差奖励干扰

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第20张

值学习。同时,将中心化奖励「广播」到生成的全序列token,实现细粒度信用分配。

ROVER的损失函数可以表示为

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第21张

算法伪代码如下

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第22张

实验结果:全面领先,多样性显著提升

研究团队在数学推理基准(AIME24/25、HMMT25、AMC、MATH等)、Countdown任务以及O.O.D.任务GPQA-diamond上验证ROVER,覆盖Qwen3-8B/4B、DeepSeek-R1-1.5B等模型,结果堪称「降维打击」:

1. 数学竞赛任务:pass@1与pass@k双突破

在Qwen3-8B-Base模型上,ROVER的pass@1在AIME24达30.6(比最佳基线DAPO高19.1分);在HMMT25任务中,pass@1从基线最高7.1跃升至14.6(提升106%)。

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第23张

更关键的是pass@k性能:传统RL方法(如GRPO)的pass@k随k增大迅速饱和,而ROVER在pass@256上也能与基线拉开明显差距,展现持续探索能力。

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第24张

2. 策略多样性:比基线高17.6%,覆盖更多解题路径

采用LLM-as-Judge方法评判所有方法生成的正确答案的推理内容多样性,ROVER训练的策略多样性比基线平均提升+17.6%,在AIME24上发现更多独特解题路径。在其他多样性指标如余弦距离(cosine distance)与利用率(utility)等,ROVER在不同温度下仍表现出一致的高多样性。

受益于多样性的提升,ROVER在GPQA-diamond等与数学无关的O.O.D任务上也表现最佳。

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第25张

3. 案例展示:ROVER发现全新解法

通过「策略数量」指标(同一问题生成的不同推理路径数)评估,ROVER在各个任务上均能发现更多的解题策略。如下图所示,在「2x3网格数字排列」问题中,基模型与GRPO均仅发现2种策略,而ROVER可以发现4种(包括「隔板法」「容斥原理」等不同数学工具)。

ROVER:极简强化学习方法革新大语言模型数学推理 ROVER 强化学习 大语言模型 数学推理 第26张

启示与展望

ROVER的提出,不仅是一次技术突破,更是一次方法论的反思:在某些结构化任务中,简化而非复杂化,才是推进性能的关键。「Simplicity is the ultimate sophistication.」——ROVER这一基于简单随机策略的新方法,诠释了达芬奇这句名言在AI时代的新内涵。

更多方法细节与实验分析请见原论文。