大型语言模型是否真正具备推理能力?这一直是学术界和工业界广泛讨论的核心议题。
究其原因,现有LLM在处理复杂编程代码、多步骤逻辑推理以及高度抽象任务时,仍频繁出现失误,常表现为逻辑断层、步骤顺序错乱、输出内容与问题无关等多种缺陷。
依赖人工标注指导?过程过于缓慢。依靠奖励信号优化?反馈强度不足。采用结果验证筛选?数据成本高昂。如何平衡模型的推理性能、训练效率以及任务泛化能力,已成为领域内亟待突破的关键挑战。
为应对上述挑战,清华大学计算机科学与技术系知识工程研究室(KEG)的研究团队创新性地提出了一种统一的LLM强化学习新框架——ReST-RL。该框架通过融合改进型的群体相对策略优化(GRPO)算法与一种由价值模型(VM)驱动的智能测试解码策略,在显著提升LLM推理链条可靠性的同时,有效兼顾了训练过程的效率、稳定性与方法的可扩展性。
相关研究论文已公开发布:https://arxiv.org/abs/2508.19576
广泛的实验评估表明,在APPS、BigCodeBench和HumanEval等不同难度等级的经典代码生成基准测试中,ReST-RL的表现均超越了其他主流强化学习基线方法(例如原始GRPO和ReST-DPO),以及各类基于解码与验证的基线模型(如PRM-BoN和ORM-MCTS)。
这些结果有力地证实,ReST-RL在强化LLM策略的深层推理潜能方面拥有巨大前景,并为探索大语言模型的强化学习进阶路径开辟了新的方向。
近年来的多项研究揭示,强化学习确实能够促进LLM推理能力的提升,使得该方向成为当前的研究焦点。
部分方法采用在线RL范式,即模型采样与参数更新同步进行,以群体相对策略优化(GRPO)为代表;另一类方法则倡导通过离线采样与数据筛选机制构建训练集,这一范式常被称为自训练,其典型方法是强化自训练(ReST)。尽管训练机制不同,这两类途径均能在一定程度上优化LLM的推理表现。
奖励模型(RMs)因其在输出验证中的关键作用而备受关注。已有实证表明,对LLM最终输出进行验证的结果奖励模型(ORM)有助于提高推理准确率。多种为推理中间步骤提供反馈的过程奖励模型(PRMs)也被开发出来,其验证效果通常优于ORM。
然而,这些现有方法仍存在明显短板。一方面,以GRPO为代表的在线RL算法,常因不同输出间的奖励信号差异微小而导致训练收敛困难或效果不佳。尽管一些研究尝试通过设计逐步奖励或引入简单的动态采样来缓解此问题,但这往往伴随着更高的计算开销、较弱的泛化能力以及更复杂的算法设计。另一方面,尽管PRMs在验证输出方面表现更优,但其训练通常依赖于大量高质量的人工标注数据。由于标注成本极高,PRM的训练数据规模难以扩展,从而限制了其预测的准确性与模型的可靠性。
有学者提出通过蒙特卡洛模拟来估计并收集过程奖励,但这类方法难以迁移到更复杂的推理任务中,且其对结果严格匹配机制的依赖也大大限制了其应用场景。
总体而言,现有技术方案难以在数据采集成本、模型泛化能力、强化学习效果与整体训练效率之间达成最优平衡。
ReST-RL为解决训练中奖励差异微弱和PRM准确性不足的难题提供了全新的思路。该方法主要由两大核心组件构成,即ReST-GRPO(基于强化自训练的群体相对策略优化)和VM-MCTS(基于价值模型的蒙特卡洛树搜索)。
图|ReST-RL 整体框架示意图
ReST-GRPO采用经过优化的ReST算法来执行GRPO训练,旨在系统性地提升模型策略处理复杂推理任务的能力。该方法巧妙地利用策略自身对生成的数据进行筛选与重组,有效缓解了标准GRPO中因奖励稀疏或扁平化而导致的训练失效问题,从而增强了策略生成高质量、连贯推理轨迹的稳定性。
LLM生成的解答轨迹及其对应的奖励值蕴含了丰富的信息,能够揭示模型在特定任务领域的优势与薄弱环节,这些信息可用于过滤掉低质量或无效的训练样本。
研究团队采用奖励值的标准差来评估其多样性。对于那些所有生成解答的奖励标准差低于预设阈值σ₀的提示问题,将其从当前训练集中移除。训练过程专注于那些能够获得高奖励的解答轨迹,并最终利用这些轨迹中的部分中间状态构建出新的、更高效的训练数据集。
与原始GRPO相比,ReST-GRPO能够显著增加训练过程中奖励分布的方差,为策略更新提供更清晰、更具区分度的学习信号。
图|策略训练过程中,不同方法下组内奖励标准差的分布对比。
VM-MCTS则专门用于LLM在测试阶段的解码过程。其中,价值模型(VM)扮演着类似PRM的角色,它不仅提供验证信号,更能主动引导LLM策略去探索潜在价值更高的推理路径。VM的价值评估目标针对包含最后一步在内的整个部分推理状态,而非单一的动作或独立步骤。它天然地反映了策略从当前局部状态出发,最终抵达高奖励终态的期望潜力,从而能在解码过程中为策略提供至关重要的辅助导航。
在为VM收集训练数据时,团队采用蒙特卡洛树搜索(MCTS)方法,以在广泛探索不同推理路径和有效利用高潜力中间状态之间取得最佳平衡。一旦收集到足量的价值目标数据,即可训练VM来准确预测各类中间状态的预期累积奖励。
通过此方法训练得到的VM,能够相当精准地预测在当前策略下,任意部分状态所能获得的预期奖励。该算法依据VM的价值估计来决定应优先探索和解码哪些路径,从而大幅提升了搜索过程的效率与最终解答的准确性。
研究团队通过在大量编程问题数据集上进行实验,全面验证了所提出的RL新范式及其各个组成部分的有效性,证明ReST-RL不仅能够显著增强LLM策略的复杂推理能力,同时在训练效率、资源成本和模型泛化性等方面实现了优异的综合平衡。
结果显示,ReST-RL及其核心组件在各项性能指标上均全面领先于其他强化学习基线方法(如原始GRPO和ReST-DPO),以及多种解码与验证基线方法(如PRM-BoN和ORM-MCTS)。
在相同训练迭代步数的对比测试中表明,ReST-GRPO相较于原始GRPO和DAPO等方法,展现出更快的收敛速度与更高的训练效率。
在解码验证资源预算相同的条件下,VM-MCTS及其配套VM在解答准确性方面,超越了此前基于公开数据集训练的Math-Shepherd风格PRM或传统的ORM。
图|不同方法在训练效率与固定预算内验证能力上的对比测试结果。
尽管系列实验充分证实了 ReST-RL 框架的卓越性能,但该方法仍然存在一些局限性有待解决。
例如,研究尚未在代码推理之外的更广泛任务领域(如数学定理证明、常识推理等)中对ReST-RL进行系统性验证。虽然该框架本身具备任务无关的通用性潜力,但在迁移到其他应用场景时,可能需要重新设计适配的奖励函数机制并调整实验超参数。
此外,部分实验设置(如过滤阈值σ₀的选择、MCTS的模拟次数等)对最终模型性能的具体影响,也尚未进行充分的消融分析与系统性研究。
研究团队同时指出,价值模型在面对训练数据分布之外的域外任务时,其预测准确性仍需更深入的考察,后续研究工作将重点拓展ReST-RL在多元化、跨领域推理任务中的泛化能力与鲁棒性。
本文由主机测评网于2025-12-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251213926.html