大语言模型(LLM)的推理能力备受争议,面对复杂任务时,其逻辑跳跃、步骤混乱等问题频出。
当前,如何平衡推理能力、训练效率与通用性,成为业内的一大挑战。为此,清华大学知识工程研究室(KEG)团队提出了一种名为ReST-RL的新范式,旨在通过强化学习提升LLM的推理能力。
ReST-RL通过结合改进的GRPO算法和由价值模型(VM)辅助的测试时解码方法,在提升LLM推理能力的同时,也兼顾了效率、稳定性与可拓展性。
实验结果显示,ReST-RL在APPS、BigCodeBench和HumanEval等编程基准上表现优异,超越了其他强化训练和解码验证基线。
尽管在线RL和离线采样方法都能提升LLM的推理能力,但它们在奖励信号微弱、计算成本高和数据标注成本高等方面存在不足。
为解决这些问题,ReST-RL提出了新的解决方案,通过ReST-GRPO和VM-MCTS两个主要部分,实现训练与推理的双重优化。
ReST-GRPO通过优化后的ReST算法执行GRPO,提升了策略在复杂推理任务中的能力。而VM-MCTS则利用价值模型在测试阶段引导LLM探索更有潜力的推理路径。
研究团队通过大量实验验证了ReST-RL的有效性,并指出其在效率、成本和泛化性方面的优势。然而,ReST-RL仍面临一些局限,如尚未在其他任务中验证其有效性。
尽管ReST-RL在代码推理任务中表现出色,但其仍需在更广泛的任务中验证其泛化能力。未来工作将探索其在数学推理和常识推理等任务中的应用。
本文由主机测评网于2026-04-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441085.html