本论文的第一作者何浩然,现为香港科技大学博士生,专注研究方向包括强化学习与基础模型等领域,旨在通过经验与奖励机制激发超级智能的潜力。共同第一作者叶语霄系香港科技大学一年级博士研究生。通讯作者为香港科技大学电子及计算机工程系、计算机科学与工程系助理教授潘玲。
在大语言模型(LLM)执行数学推理任务时,基于可验证奖励的强化学习(RLVR)已成为提升模型推理效能的关键途径。然而,主流技术如PPO、GRPO等仍依赖于为传统RL场景设计的策略梯度更新目标,其本质可由策略迭代(policy improvement)刻画,即涵盖策略评估(policy evaluation)与策略改进(policy improvement)的循环过程。这类方法常遭遇训练不稳定、多样性缺失、参数调整复杂等挑战。
那么,针对LLM推理任务,是否存在一种更简洁、更根本的解决方案?
香港科技大学联合阶跃以及快手等团队提出了一个令人瞩目的答案:仅需对一个完全随机策略进行价值评估,便足以定位最优推理路径。他们由此推出ROVER(Random Policy Valuation for Diverse Reasoning),以极简理念颠覆传统范式,跳过传统强化学习推理中的策略迭代(policy improvement)循环。
ROVER不仅在多个数学推理基准测试中显著超越现有方法,更以「极简主义」实现高质量与高多样性并存的推理生成。
目前,相关论文、代码及模型均已开源。
在AIME24、AIME25以及HMMT25等高难度任务中,ROVER相比传统方法显著提升了pass@1(+8.2)和pass@256(+16.8),并在多种多样性指标上达到新高(+17.6%)。同时,ROVER无需额外维护价值网络(value network)或基模型(reference model)来计算KL散度,从而更加轻量化。
在LLM推理优化中,主流方法(如PPO、GRPO)可被广义策略迭代(Generalized Policy Iteration)描述——反复执行「策略评估(计算当前策略价值,如估计优势函数advantage)」与「策略改进(更新策略[数学公式])」。尽管这些方法能提升性能,但存在核心问题:
研究团队首先指出,大语言模型推理任务可建模为有限时域马尔可夫决策过程(MDP),具有以下关键特征:
这与传统RL任务(如Atari游戏、机器人控制)中常见的随机性状态转移、循环图结构、中间奖励等复杂设定形成鲜明对比。
「我们是否在用过于复杂的工具,解决一个结构上更简单的问题?」——这成为ROVER研究的起点。
在这一简单结构中,研究团队证明了一个颠覆性结论:均匀随机策略的Q值,直接指向最优策略。
设环境为有限时域、树形状态空间、二元奖励的MDP,
为均匀随机策略(每个动作选择概率为1/|A|),
为其Q值。则贪心策略(如下所示)就是最优策略!
证明直观:树形结构中,若某动作
的子树存在正确解答,则
;反之
。因此,贪心选择
值最大的动作,必然导向包含正确解答的路径。
因此,策略学习过程可以简化为下图形式。
ROVER算法流程:三步极简,免去迭代
(1)Q值估计:
ROVER通过广义贝尔曼方程计算均匀随机策略下状态-动作对的
值,因此方程用均值算子表达:
为奖励,s"为执行动作a后的新状态,V为动作空间。
(2)策略构建:
尽管贪心选择可保证最优性,却可能丧失多样性。为此,ROVER引入基于
值的softmax采样:
其中
是温度系数,控制探索程度。这种方式既保留了高价值路径的优先级,又能探索多条有效推理路线,显著提升pass@k表现。
(3)训练目标:
在实际实现中,ROVER还引入了:
函数内化于LLM参数,无需训练额外价值网络:
这种「自监督」式参数化,让模型学习「相对改进」而非「绝对价值」,既减少计算量,又提升稳定性。
组内奖励中心化,降低方差,即
。避免高方差奖励干扰
值学习。同时,将中心化奖励「广播」到生成的全序列token,实现细粒度信用分配。
ROVER的损失函数可以表示为
算法伪代码如下
研究团队在数学推理基准(AIME24/25、HMMT25、AMC、MATH等)、Countdown任务以及O.O.D.任务GPQA-diamond上验证ROVER,覆盖Qwen3-8B/4B、DeepSeek-R1-1.5B等模型,结果堪称「降维打击」:
1. 数学竞赛任务:pass@1与pass@k双突破
在Qwen3-8B-Base模型上,ROVER的pass@1在AIME24达30.6(比最佳基线DAPO高19.1分);在HMMT25任务中,pass@1从基线最高7.1跃升至14.6(提升106%)。
更关键的是pass@k性能:传统RL方法(如GRPO)的pass@k随k增大迅速饱和,而ROVER在pass@256上也能与基线拉开明显差距,展现持续探索能力。
2. 策略多样性:比基线高17.6%,覆盖更多解题路径
采用LLM-as-Judge方法评判所有方法生成的正确答案的推理内容多样性,ROVER训练的策略多样性比基线平均提升+17.6%,在AIME24上发现更多独特解题路径。在其他多样性指标如余弦距离(cosine distance)与利用率(utility)等,ROVER在不同温度下仍表现出一致的高多样性。
受益于多样性的提升,ROVER在GPQA-diamond等与数学无关的O.O.D任务上也表现最佳。
3. 案例展示:ROVER发现全新解法
通过「策略数量」指标(同一问题生成的不同推理路径数)评估,ROVER在各个任务上均能发现更多的解题策略。如下图所示,在「2x3网格数字排列」问题中,基模型与GRPO均仅发现2种策略,而ROVER可以发现4种(包括「隔板法」「容斥原理」等不同数学工具)。
ROVER的提出,不仅是一次技术突破,更是一次方法论的反思:在某些结构化任务中,简化而非复杂化,才是推进性能的关键。「Simplicity is the ultimate sophistication.」——ROVER这一基于简单随机策略的新方法,诠释了达芬奇这句名言在AI时代的新内涵。
更多方法细节与实验分析请见原论文。
本文由主机测评网于2026-01-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118400.html