论文第一作者何浩然是香港科技大学博士生,致力于探索强化学习和基础模型等前沿领域,旨在通过经验和奖励推动超级智能的发展。共同第一作者叶语霄同样来自香港科技大学,担任一年级博士生。而通讯作者潘玲教授则来自香港科技大学电子及计算机工程系、计算机科学与工程系,担任助理教授。
在探讨大语言模型(LLM)的数学推理任务时,基于可验证奖励的强化学习(RLVR)已成为提升模型推理能力的重要途径。然而,当前的主流方法,如PPO和GRPO等,仍依赖于为传统RL场景设计的策略梯度更新学习目标,本质上可归纳为策略迭代过程,即策略评估与策略改进的不断循环。这些方法常面临训练不稳定、多样性丧失及调参复杂等挑战。
那么,针对LLM推理任务,是否存在一种更简洁、更本质的解决方法呢?
香港科技大学联合阶跃及快手等团队给出了一个令人瞩目的答案:只需对一个完全随机的策略进行价值评估,即可找到最优推理路径。他们因此提出了ROVER(Random Policy Valuation for Diverse Reasoning),以极简思路颠覆传统范式,跳过传统强化学习推理的策略迭代循环。
ROVER在多项数学推理基准上显著超越了现有方法,并以“极简主义”实现了高质量与高多样性并重的推理生成。
目前,论文、代码及模型均已开源。
在高难度任务如AIME24、AIME25及HMMT25上,ROVER相较于传统方法大幅提高了pass@1(+8.2)和pass@256(+16.8),并在多种多样性指标上达到了新高度(+17.6%)。此外,ROVER无需额外维护价值网络或基模型计算KL,从而更加轻量。
在LLM推理优化中,主流方法(如PPO、GRPO)可被广义策略迭代刻画——反复执行“策略评估(计算当前策略价值,如估计优势函数)”与“策略改进(更新策略)”。尽管这些方法能提升性能,却存在核心痛点:
研究团队首先指出,大语言模型推理任务可被建模为有限时域马尔可夫决策过程(MDP),具备以下关键特性:
这与传统RL任务(如Atari游戏、机器人控制)中常见的随机性状态转移、循环图结构、中间奖励等复杂设定截然不同。
“我们是否在用过于复杂的工具解决一个结构上更简单的问题?”——这成为ROVER研究的出发点。
在这一简单结构中,研究团队证明了一个颠覆性结论:均匀随机策略的Q值直接指向最优策略。
...(此处省略部分数学证明内容)...
(1)Q值估计:
...(此处省略部分算法描述内容)...
(2)策略构建:
...(此处省略部分算法描述内容)...
(3)训练目标:
...(此处省略部分算法描述内容)...
...(此处省略部分实验结果内容)...
...(此处省略部分总结与展望内容)...
本文由主机测评网于2026-05-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543712.html