当前位置:首页 > 科技资讯 > 正文

ReST-RL:强化学习新范式,破解大语言模型推理难题

大语言模型(LLM)的推理能力备受争议,面对复杂任务时,其逻辑跳跃、步骤混乱等问题频出。

当前,如何平衡推理能力、训练效率与通用性,成为业内的一大挑战。为此,清华大学知识工程研究室(KEG)团队提出了一种名为ReST-RL的新范式,旨在通过强化学习提升LLM的推理能力。

ReST-RL:强化学习新范式,破解大语言模型推理难题 ReST-RL  大语言模型 强化学习 推理能力 第1张

ReST-RL通过结合改进的GRPO算法和由价值模型(VM)辅助的测试时解码方法,在提升LLM推理能力的同时,也兼顾了效率、稳定性与可拓展性。

实验结果显示,ReST-RL在APPS、BigCodeBench和HumanEval等编程基准上表现优异,超越了其他强化训练和解码验证基线。

现有RL方法难实现真正推理

尽管在线RL和离线采样方法都能提升LLM的推理能力,但它们在奖励信号微弱、计算成本高和数据标注成本高等方面存在不足。

为解决这些问题,ReST-RL提出了新的解决方案,通过ReST-GRPO和VM-MCTS两个主要部分,实现训练与推理的双重优化。

ReST-RL:强化学习新范式,破解大语言模型推理难题 ReST-RL  大语言模型 强化学习 推理能力 第2张

ReST-GRPO通过优化后的ReST算法执行GRPO,提升了策略在复杂推理任务中的能力。而VM-MCTS则利用价值模型在测试阶段引导LLM探索更有潜力的推理路径。

研究团队通过大量实验验证了ReST-RL的有效性,并指出其在效率、成本和泛化性方面的优势。然而,ReST-RL仍面临一些局限,如尚未在其他任务中验证其有效性。

局限与未来方向

尽管ReST-RL在代码推理任务中表现出色,但其仍需在更广泛的任务中验证其泛化能力。未来工作将探索其在数学推理和常识推理等任务中的应用。

```