在日常活动中,当面对编写电子邮件、制定大纲或设计饮食方案等开放型任务时,人们往往先在脑海中整理思绪,然后再开始行动。这种深度思考能力,被诺贝尔奖得主、心理学家丹尼尔·卡尼曼命名为“系统2思维”,它是人类智慧的关键特征。
尽管可验证奖励强化学习(RLVR)通过数学、编程等领域的规则化奖励,提升了大语言模型的推理能力,但在开放性任务上的泛化表现仍然有限。
在最近一项研究中,普林斯顿大学陈丹琦副教授团队取得了重要进展,成功将可验证领域的推理能力迁移到通用对话场景。
在技术实现上,他们提出了“基于模型奖励思维的强化学习”(RLMT)框架,使大语言模型在生成回复前先产生详细的思维链,并通过基于偏好的奖励模型进行在线强化学习优化。
论文数据显示,经过RLMT训练的8B参数模型在聊天和创意写作任务上超越了GPT-4o,并与Claude-3.7-Sonnet(思考版)表现相当。同时,仅使用7千个提示,基于RLMT训练的Llama-3.1-8B基础模型就超过了经过多阶段复杂流程、使用超过2500万样本训练的Llama-3.1-8B-Instruct模型。
论文链接:https://arxiv.org/abs/2509.20357
研究团队指出,这一成果将推动后训练流程的重新审视,并呼吁未来研究更全面地理解和应用思考能力。
要理解RLMT框架的突破性,需要先厘清现有语言模型训练的两大挑战:
一方面,基于人类反馈的强化学习(RLHF)虽然能对齐人类偏好,但将模型输出视为整体,缺乏显式的推理引导;
另一方面,可验证奖励强化学习(RLVR)虽然能通过数学、代码等领域的规则化奖励让模型生成长思维链,但在更广泛的推理问题和聊天基准测试中泛化能力不足,难以扩展到无明确“标准答案”的通用对话场景。
RLMT框架既保留了RLVR先生成推理轨迹、再输出结果的模式,又采用了RLHF基于人类偏好的奖励模型,使模型在开放性任务中也能学会“思考”。
具体而言,RLMT框架要求语言模型在生成最终回复前,必须先输出详细的推理轨迹,然后通过在线强化学习如GRPO算法,使用偏好奖励模型对整个“推理+响应”过程进行评分优化。
图|通过强化学习与奖励模型,训练基于长思维链的语言模型,能够处理多样化的通用用户提示。相较于RLHF,RLMT允许模型进行思考,并将RLVR扩展到更广泛、开放性的任务中。
图|通过RLMT训练的语言模型为开放式查询生成的示例推理轨迹。
为实现这一目标,团队对三个关键环节进行了精心设计:
在训练算法选择环节,团队分别测试了同策略深度强化学习DPO、PPO、GRPO三种主流算法,发现尽管最佳模型是通过GRPO算法训练的,但即使使用DPO或PPO等算法,RLMT仍能超越传统RLHF,所有设置下的模型表现都优于基准模型;
在奖励模型环节,团队选用了在奖励基准测试和下游应用中均展现出优异性能的Skywork-v1-Llama-3.1-8B-v0.2,后续实验证明,强大的奖励模型对RLMT至关重要。奖励模型的强度会影响性能上限,但RLMT在不同强度奖励模型下均优于RLHF;
在提示库构建环节,团队摒弃了含有大量数学题和越狱提示的数据集,选择了Tülu 3的WildChat-IF子集,这是从WildChat平台筛选的7.5千个真实用户对话提示,覆盖日常聊天、创意写作等通用场景,更贴合实际使用需求。
同时,RLMT还支持两种灵活的训练模式。既可以通过监督微调(SFT)热启动训练,使用Gemini 2.5 Flash或GPT-4.1-mini生成带推理轨迹的提示-响应对进行“热启动”;也能直接应用于未经过任何后训练的基础模型,即零训练模式,仅通过固定指令前缀引导推理行为。
为验证RLMT的有效性,团队分别在Llama-3.1-8B和Qwen-2.5-7B两个模型家族的基础版与指令版上进行了40次训练,覆盖聊天、创意写作、知识问答等7类基准测试,并用相同设置下“无推理过程”的RLHF模型作为对照。
结果令人印象深刻,RLMT模型在所有任务中均大幅领先。通过RLMT训练的思维型模型在所有基准测试中平均表现始终领先非思维型模型1.5-4分。在核心的聊天基准测试中,优势最为显著,模型与基线模型的平均分差达3-8分,并且这些模型通常在创意写作和事实问答任务上表现更优。
表|基于Llama-3.1-8B和Qwen2.5-7B训练的GRPO模型在热启动和零训练设置下的测试结果。
更值得关注的是,小模型展现出了比大模型更为强大的实力。Llama-3.1-8B-Instruct-RLMT在WildBench上得50.4分,不仅超越了近10倍参数的模型Llama-3.1-70B-Instruct、Qwen2.5-72B-Instruct,甚至超过了GPT-4o。
表|Llama-3.1-8B-Instruct RLMT与强开源和封闭模型的比较,包括GPT-4o和Claude-3。
即便跳过复杂的SFT阶段,RLMT对基础模型的提升依然显著。以Llama-3.1-8B为例,零训练的RLMT模型Llama-3.1-8B-RLMT-Zero聊天平均分达15.6,比经过多阶段微调、使用2500万+样本训练的Llama-3.1-8B-Instruct高5.5分;Qwen2.5-7B-RLMT-Zero更是直接超越了Qwen2.5-7B-Instruct。
表|热启动和零训练的DPO/PPO结果
消融实验进一步揭示了RLMT的关键成功因素:提示质量、奖励模型强度、推理过程三者缺一不可。用真实对话提示训练的模型,比用简单提示或含大量数学题的提示高5-7分;强奖励模型能让模型在保持非聊天任务性能的同时提升聊天能力,而弱奖励模型虽会导致整体下降,但RLMT仍能在该设置下优于RLHF,这证明了“让模型思考”的价值不依赖于特定的奖励模型。
表|GRPO即时混合模型、SFT数据源及奖励模型的消融实验
通过定性与定量分析,团队发现RLMT不仅提升了模型性能,更从根本上改变了其“思考”的方式。
图|左:SFT和GRPO模型的特征层面直接对战胜率对比;右:示例推理行为
从推理风格来看,SFT模型的规划更像“线性清单”。拿到任务后先划分章节、子章节,按部就班推进;而RLMT模型则展现出更接近人类的复杂推理模式:先仔细枚举任务约束与核心子主题,再将零散想法按主题分组,最后迭代优化细节。更特别的是,RLMT模型还会“回头反思”。在规划后期回溯调整早期内容,比如交叉引用之前提到的要点,让整体逻辑更连贯。
图|随着训练的进行,Llama-3.1-8B-RLMT-Zero思考和回答的时间更长。
这种思维模式的转变,也体现在推理长度上。训练过程中,RLMT模型生成的推理轨迹和最终响应长度均持续增加。以Llama-3.1-8B-RLMT-Zero为例,随着训练步骤推进,其推理部分的token从初始阶段的不足200,逐步增长到600以上,响应长度也同步提升,这意味着模型学会了用更长时间梳理思路,而非仓促输出。
为更精准地捕捉差异,团队还通过GPT-4.1-mini对1024个WildBench示例的推理特征进行提取。结果显示,RLMT模型在“权衡不同观点”“将想法归类为主题”“整合约束到计划中”等特征上的胜率远超SFT模型,而“严格的分步结构”特征则明显减弱。这表明模型的推理从“机械分步”转向了“灵活优化”,更贴近人类解决复杂任务的思路。
过去,语言模型的后训练往往依赖“海量数据+多阶段微调”的训练方式。例如,Llama-3.1-8B-Instruct需经过监督微调、拒绝采样、迭代偏好优化等复杂流程,用到2500万+样本。但RLMT的出现打破了这一范式,仅用7千个真实对话提示,就能让Llama-3.1-8B基础模型超越上述复杂优化的指令模型。
这一成果的意义远超技术突破本身。它证明,语言模型的通用能力提升,未必需要大量数据的堆积,而是可以通过激发模型的“思考能力”来实现。RLMT框架不仅为通用聊天任务提供了新方案,更重新定义了语言模型的后训练流程。未来,让模型学会“思考”或许会成为与“预训练”“监督微调”等同等重要的核心环节。
当然,研究也存在局限性。团队坦言,目前尚未明确性能提升究竟源于模型原有特征的强化,还是对于新特征的学习,且未对推理轨迹格式、训练超参数等进行深度优化。但这也为后续研究留下了广阔空间,比如探索更优的思维链格式、将RLMT扩展到逻辑推理、长文本生成等领域,甚至将“思考能力”融入多模态模型。
从让模型“能说话”到让模型“会思考”,RLMT迈出了关键一步。当语言模型不仅能生成流畅文本,还能像人类一样梳理思路、权衡利弊,或许我们距离真正理解人类需求的通用人工智能(AGI)又近了一步。
本文由主机测评网于2026-01-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260115009.html