当前位置：首页 > 科技资讯 > 正文

ReST-RL：强化学习新范式，破解大语言模型推理难题

大语言模型（LLM）的推理能力备受争议，面对复杂任务时，其逻辑跳跃、步骤混乱等问题频出。

当前，如何平衡推理能力、训练效率与通用性，成为业内的一大挑战。为此，清华大学知识工程研究室（KEG）团队提出了一种名为ReST-RL的新范式，旨在通过强化学习提升LLM的推理能力。

ReST-RL：强化学习新范式，破解大语言模型推理难题 ReST-RL 大语言模型强化学习推理能力第1张

ReST-RL通过结合改进的GRPO算法和由价值模型（VM）辅助的测试时解码方法，在提升LLM推理能力的同时，也兼顾了效率、稳定性与可拓展性。

实验结果显示，ReST-RL在APPS、BigCodeBench和HumanEval等编程基准上表现优异，超越了其他强化训练和解码验证基线。

现有RL方法难实现真正推理

尽管在线RL和离线采样方法都能提升LLM的推理能力，但它们在奖励信号微弱、计算成本高和数据标注成本高等方面存在不足。

为解决这些问题，ReST-RL提出了新的解决方案，通过ReST-GRPO和VM-MCTS两个主要部分，实现训练与推理的双重优化。

ReST-RL：强化学习新范式，破解大语言模型推理难题 ReST-RL 大语言模型强化学习推理能力第2张

ReST-GRPO通过优化后的ReST算法执行GRPO，提升了策略在复杂推理任务中的能力。而VM-MCTS则利用价值模型在测试阶段引导LLM探索更有潜力的推理路径。

研究团队通过大量实验验证了ReST-RL的有效性，并指出其在效率、成本和泛化性方面的优势。然而，ReST-RL仍面临一些局限，如尚未在其他任务中验证其有效性。

尽管ReST-RL在代码推理任务中表现出色，但其仍需在更广泛的任务中验证其泛化能力。未来工作将探索其在数学推理和常识推理等任务中的应用。

```

本文由主机测评网于2026-04-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260441085.html