在日常生活里,人们处理如撰写邮件、拟定提纲及制定饮食计划等开放性问题时,通常会在脑海中先整理思路,再着手完成。这种“深度推理”能力,被诺贝尔经济学奖得主兼心理学家Daniel Kahneman称为“系统2思维”,是人类智能的核心特征。
尽管通过在数学、编程等可验证领域应用基于规则的奖励,可验证奖励强化学习(RLVR)提升了大型语言模型(LLM)的推理能力,但在开放任务上的泛化能力仍然有限。
最新研究中,普林斯顿大学陈丹琦副教授团队取得突破,成功将可验证领域的推理能力迁移至通用聊天场景。
他们提出了“基于模型奖励思维的强化学习”(RLMT)框架,让LLM在回复前生成一段长思维链(CoT),并通过基于偏好的奖励模型进行在线RL优化。
据论文描述,经RLMT训练的8B模型在聊天和创意写作方面超越了GPT-4o,与Claude-3.7-Sonnet (Thinking)相当。仅用7K个提示,基于RLMT训练的Llama-3.1-8B基础模型就超越了经复杂多阶段流程、使用25M+示例后训练的Llama-3.1-8B-Instruct。
论文链接:https://arxiv.org/abs/2509.20357
研究团队表示,这一发现将促使人们重新考虑后训练流水线,并呼吁未来的研究应更全面理解和应用思考能力。
要理解RLMT框架的创新之处,需先了解现有语言模型训练的两大痛点:
一方面,基于人类反馈的强化学习(RLHF)虽能对齐人类偏好,但将模型输出视为单一实体,缺乏显式推理引导;
另一方面,尽管可验证奖励强化学习(RLVR)能通过数学、编程等领域的规则化奖励让模型生成长CoT,但在更广泛的推理问题和聊天基准测试中表现出泛化能力仍显不足,难以扩展到无明确“标准答案”的通用聊天场景。
RLMT框架既保留了RLVR先生成推理轨迹再输出结果的模式,又沿用了RLHF基于人类偏好的奖励模型,使模型在开放任务中也能学会“思考”。
具体来说,RLMT框架要求语言模型在生成最终响应前,先产出一段详细的推理轨迹,再通过在线强化学习如GRPO算法,用偏好奖励模型对整个“推理+响应”过程评分优化。
图|通过强化学习与奖励模型,训练基于长思维链的语言模型,能够处理多样化的通用用户提示。相较于RLHF,RLMT允许模型进行思考,并将RLVR扩展到更广泛、开放性的任务中。
图|通过RLMT训练的LM为开放式查询生成的示例推理轨迹。
为实现这一目标,团队对三个关键环节进行了精心设计:
在训练算法选择环节,团队分别测试了同策略深度强化学习DPO、PPO、GRPO三种主流算法,发现尽管最佳模型是通过GRPO算法训练的,但即便用DPO或PPO等算法,RLMT仍能超越传统RLHF,所有设置下的模型表现都优于基准模型;
在奖励模型环节,团队选用在奖励基准测试和下游应用中均展现优异性能的Skywork-v1-Llama-3.1-8B-v0.2。后续实验证明,强大的奖励模型对RLMT至关重要。奖励模型的强度会影响性能上限,但RLMT在不同强度奖励模型下均优于RLHF;
在提示库构建环节,团队摒弃了含大量数学题和越狱prompt的数据集,选择Tülu 3的WildChat-IF子集。这是从WildChat平台筛选的7.5k真实用户对话提示,覆盖日常聊天、创意写作等通用场景,更贴合实际使用需求。
为验证RLMT的有效性,团队分别在Llama-3.1-8B和Qwen-2.5-7B两个模型家族的基础版与指令版上进行了40次训练,覆盖聊天、创意写作、知识问答等7类基准测试,并用相同设置下“无推理过程”的RLHF模型作为对照。
结果令研究人员震惊。RLMT模型在所有任务中均大幅领先。通过RLMT训练的思维型模型在所有基准测试中平均表现始终领先非思维型模型1.5至4分。在核心的聊天基准测试中,优势最为显著。模型与基线模型的平均分差达3至8分。此外,这些模型通常在创意写作和事实问答任务上表现更优。
表|基于Llama-3.1-8B和Qwen2.5-7B训练的GRPO模型在热启动和零训练设置下的测试结果。
更值得关注的是,小模型展现出了比大模型更为强大的实力。Llama-3.1-8B-Instruct-RLMT在WildBench上得50.4分,不仅超越了近10倍参数的模型Llama-3.1-70B-Instruct、Qwen 2.5-72B-Instruct,甚至超过了GPT-4o。
本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542148.html