当前位置：首页 > 科技资讯 > 正文

强化学习在大语言模型中的系统设计与未来发展

主机测评网
科技资讯
2026-01-19
948

强化学习作为提升大语言模型智能水平的关键技术，始终是大模型训练中最为核心且复杂的环节。其复杂度不仅体现在算法设计上，还涉及系统整体的高标准要求。

本文基于阿里巴巴算法专家曹宇于今年6月在AICon 2025北京站的分享《强化学习AI系统的设计实现及未来发展》整理而成。分享从传统RLHF系统出发，结合算法实践展示了RL系统的现状与发展脉络。通过具体案例，与行业从业者共同探讨未来超大规模RL的发展方向，内容涵盖理论基础、业界实践以及开源生态与社区共建。

以下是演讲实录（经InfoQ编辑整理，未改变原意）。

今天，我很荣幸与大家分享关于强化学习（Reinforcement Learning，RL）在大语言模型系统设计中的应用，以及对未来发展的初步思考。

RLxF理论到工程化

从强化学习的理论基础看，其对工程化的需求是多维度的。本次重点聚焦于工程化与AI基础架构（AI Infra）领域，因此算法基础部分将简要提及。算法理论看似抽象简洁，呈现循环结构。强化学习中的Agent，传统上指智能体，如今更多指大语言模型的智能体。RL系统算法的工程化成熟度促进了大语言模型与RL的融合。Agent既是RL算法的载体，也是大语言模型作为行动模型的载体。本质上，算法理论要求策略在与环境持续交互中，使大语言模型更高效探索世界、获取奖励，从而适应环境目标。策略层面，核心是学习算法，即RL算法指导梯度更新以优化任务。环境层面，关键命题是奖励函数，即如何正确奖励问题，使模型学到有价值内容。

从下图左侧的算法理论看，其执行逻辑比想象复杂。中间部分是我参与的Open RLxF框架执行逻辑图，相比左侧更复杂，涉及多个算法组件，如绿色训练态模型和蓝色推理态模型，它们交互作用支持训练。实际工程实现更为复杂，感谢蚂蚁集团AReaL，基于其运行的Open RLxF工程运行图便是例证。这是工程化实践的现状。

强化学习在大语言模型中的系统设计与未来发展强化学习大语言模型 RLHF 系统设计第1张

专业化基础理论可简化为：环境指Agent与世界的交互方式。在聊天机器人场景中，环境是大语言模型与人类的交互；在编程智能体场景中，环境涉及策略网络、代码执行器、浏览器等工具交互。环境可视为大语言模型及其Agent的对手盘，即交互对象，这是重要概念。策略以Agent形式表述，它基于当前状态（如用户输入和环境反馈）自主决定行动，这是模型从简单聊天机器人向Agent进化的分水岭，即能自主选择行为并采取最优策略。

环境和策略之外，还需两个要素：奖励函数，用于评判行为好坏，是关键输入。过去一两年，RL在大语言模型中的落地离不开奖励函数建模与优化，从人类反馈强化学习到基于宪法的反馈强化学习，再到基于可验证规则的强化学习，代表奖励信号来源扩大和任务难度提升。最后是算法本身，即研究者关注的PPO、GRPO、DPO等，涉及如何根据状态、动作和奖励历史更新策略，以改进智能体。这是算法概述。

算法方面有业界实践经验。早期主要聚焦人类反馈强化学习，这是引爆大模型热潮的关键，如Instruct GPT利用人类反馈信号，基于GPT-3基础模型开发出遵循指令和理解能力强的系统。训练方式较原始：人工评估模型响应好坏，用另一模型拟合人类判断，该模型也是大语言模型。这样，针对未来prompt和响应，有了人类反馈信号的近似，逼近模型能力上限。该方法优势在于模型结构简单、训练稳定，采用广泛使用的数学函数，在大量数据下具泛化能力和较好效果。

但存在劣势：人类标注和反馈有限，无法覆盖所有人类行为，导致"奖励劫持"现象，即模型利用奖励信号产生意外结果。因此，业界实践中常结合人类反馈与机器反馈。

下图截图来自DeepSeek生成式奖励模型的最佳实践。它在输出奖励分数前，以文字解释评分原因，好处是模型不仅能评分，还能解释选择。作为生成式模型，它具泛化性，推理中可通过多采样提升能力。此外，业界还有使用大语言模型本身作为奖励模型的方式，更灵活。例如，奖励模型评估可关注细粒度维度，以满足特定业务场景的领域监督信号要求，但成本较高，因使用大语言模型生成式推理，比直接输出token数值的模型更昂贵。

强化学习在大语言模型中的系统设计与未来发展强化学习大语言模型 RLHF 系统设计第2张

核心算法与突破

算法核心在于评估信号来源，即奖励函数设计。从全局图看，系统相对复杂。下图展示经典传统PPO算法的全链路过程，覆盖推理、评估和训练，用两条虚线划分为三部分，演讲围绕这三部分展开。

首先是左上角的推理部分，指推理模型运行，即大模型根据prompt生成响应。计算负载来自模型预处理和解码阶段的推理引擎，这是模型与环境交互的过程。交互后如何训练？中间涉及评估过程。传统方式是利用人工反馈，通过奖励模型近似学习。但随演讲深入，评估环节的价值和耗时占比正变高，因需更全面方法评估模型能力。评估过程也涉及与环境复杂交互和验证，如代码执行器。

右边是训练过程，更接近传统大模型的预训练和监督微调。在SFT和预训练中，数据离线静态准备；而在RL中，数据通过在线推理和评估动态生成。训练过程涉及多个模型同时训练。对于经典PPO算法，第一个是自身模型，通过PPO损失函数限制更新步长和幅度，在梯度自信时基于优势更新策略函数。优势指行为相对平均好坏值。PPO基于Actor-Critic架构，还有Critic模型。两模型训练后，通过高速互联推回推理模型，形成循环多轮交互模式，使模型在线提升能力。这是传统RLHF训练方式。

强化学习在大语言模型中的系统设计与未来发展强化学习大语言模型 RLHF 系统设计第3张

后续实践中，算法探索走向两条道路。其一，PPO算法虽复杂，但早期RL系统复杂度高，我们考虑基于BT奖励模型，若信号仅限于偏好对，可将PPO损失函数设计成另一形式，避免奖励模型训练和Critic函数使用。在某些业务场景效果较好。优势在于跳过奖励模型训练和优势估计，无需Critic模型训练和推理，便捷优化偏好对好坏。但劣势明显：假设强，即奖励模型须符合BT假设（一对好坏假设），但RL中有些领域无需比较相对好坏，如数学领域有绝对值。BT奖励模型非强假设，只要奖励信号准确可引入。同时，这是离线算法，不涉及训练中动态更新模型和推理新样本，易过拟合。如DPO算法，随RL框架成熟和算力提升，逐渐退出历史舞台。

强化学习在大语言模型中的系统设计与未来发展强化学习大语言模型 RLHF 系统设计第4张

另一探索是DeepSeek R1成功应用的GRPO算法，它演化传统PPO算法。主要改进在Critic模型。问题在于，若使用Critic模型估计，Critic模型需见过较多历史轨迹，算法层面才能无偏估计，否则策略学习不准确。GRPO算法有趣之处在于，进行Critic估计时未用模型估计，而是重复推理多次，通过与均值和标准差关系估计优势。将PPO演进成此法后，在RLHF时代未显太多优势。但DeepSeek更关注编程等纯推理类场景效果。该算法最大优势是在推理类场景中，快速避免Critic函数训练成本及训练算法稳定性问题。未来，价值函数在RL中的作用仍是开放性问题。大语言RL时代前，价值函数很重要，如AlphaGo可节省推理时间，实质是以计算换计算。假设推理条数多，如16、32或128条，通过较准确函数可一次性推理。未来，在多轮长上下文交互下，相比GRPO，价值函数可能发挥更好作用。

强化学习在大语言模型中的系统设计与未来发展强化学习大语言模型 RLHF 系统设计第5张

超大规模RL系统

宏观上，RL领域变化速度超想象。前文聚焦左侧部分，即人类反馈强化学习在模型安全性、有用性和表达性等领域的应用，工作多集中在2022年底。RL进展快，以周衡量。从RLHF到RLAIF，RL应用范围从对齐人类指标转向追求模型智能上限，即推理能力。

推理类模型训练方式与传统RL算法相比，算法变化不大，但系统架构和训练领域变化显著。以DeepSeek今年春节成功为例，采用GRPO算法，在可验证领域加大算力投入，实现智力水平显著提升。今年，许多大模型在高考场景接近985大学生成绩，而去年大模型还分不清9.8和9.1大小。一年间，RL演进和基础模型提升发挥关键作用。

强化学习在大语言模型中的系统设计与未来发展强化学习大语言模型 RLHF 系统设计第6张

下一阶段，随模型自主完成任务能力增强，端到端RL，如Deep Research这种更自主模式，将在业务场景中广泛探索。这与单纯做题不同，做题是单次交互，通过自我思考得出答案，由RL验证器给信号后迭代提升。而RL目的更宏观，希望深入研究某一领域，这是开放型长期决策问题，需多次与互联网、代码执行器或更专业工具结合。

这种训练方法对RL算法是更大挑战。接下来结合RL在推理、评估和训练需求做具体介绍。总体趋势明显：从单轮、单信号RLHF，正朝多轮复杂交互条件下的端到端RL进化。RL系统不是单纯训练系统，它包含推理、评估和多个模型训练。迈向超大规模时，每个维度都面临升级挑战。同时，挑战在于如何整合系统，使其兼容并提高效率。

强化学习在大语言模型中的系统设计与未来发展强化学习大语言模型 RLHF 系统设计第7张

超大规模RL系统的推理部分。在超大规模RL系统中，推理引擎未来将发挥更大作用。除推理引擎本身挑战外，RL推理还面临额外挑战。首先，需尽可能复用大规模推理系统进展，如早期项目使用基于Hugging Face的低效推理引擎，效率瓶颈在推理时间长时影响系统。因此，后来切换为利用Page Attention加速的VRM推理引擎。

强化学习在大语言模型中的系统设计与未来发展强化学习大语言模型 RLHF 系统设计第8张

此外，RL系统是在线系统，模型权重随推理不断更新，这与推理系统不完全一致。通常，模型训练后部署到推理系统，加载CUDA Graph并优化。但RL系统每训练一步就需更新权重。对超大规模RL系统，这要求系统支持权重动态更新和高效传递。例如，DeepSeek的670亿参数模型权重需广播到整个集群，这是巨大挑战。同时，需更灵活打断机制，如推理中权重更新时，通知推理引擎停止推理，因继续推理得的数据是off-policy，对训练无意义。还有路由机制问题，因推理本身是分布式，至少涉及数据并行。如何将数据分配到合适机器，以更好利用KV Cache等资源，这也是超大规模系统挑战之一。

强化学习在大语言模型中的系统设计与未来发展强化学习大语言模型 RLHF 系统设计第9张

另有一些细节需考虑。训练中，GPU卡可能被复用，既用于推理也用于训练。如何让两者和谐共处，减少权重传递带来的额外时间消耗？下图右侧展示实践案例，使用CUDA中先进技术，如CUDA IPC（Zero copy）方式，在内存中权重同步。在分离式情况下，服务集管控和同步也是大问题。目前，RL系统尚未达到超大并发PD分离模式，但随系统规模增大，瓶颈将出现在推理侧。因此，如何将现有推理系统中与RL相关的优化复用，形成高效系统，是未来超大规模长期系统中重要部分。总体调优倾向是优先考虑并发而非时延，因这不是直接面向用户的系统。若通过优化运营策略和算法调整，提高系统并发能力，训练侧瓶颈会更小。

在推理侧部分，目前探索一些前沿技术，旨在解决RL中特有的数据分布不一致性问题。具体地，用蓝色标记一条数据的推理过程，源自蚂蚁集团AReaL框架。该框架主要解决训练中推理样本长度参差不齐问题，有的样本长，有的短。为组成批次训练，最糟情况是所有短样本必须等待最长样本完成，导致大量时间浪费，因等待时间无法有效利用。

这种模式在当前常见推理框架中较典型，如类似vLLM的框架：等待一批推理完成后再收集和训练，训练结束后更新权重至模型，随后继续推进。为缓解时间浪费，有方法称为"一步离策略"，即先完成推理，然后开始训练，在训练同时让另一组CPU继续推理。但即便如此，仍存在空跑现象，因数据结束时间无法预测，这是大语言模型自回归特性所致。

在AReaL框架及后续工作中，提出推理方面的新挑战，即推理过程必须可被打断。例如，推理到一半时，若模型更新，需中断推理，暂停当前进程，等待权重更新后重新计算KV Cache，然后继续推理。推理部分挑战巨大，因面对的可能是有数百甚至数千张GPU卡的大规模集群。

除推理部分，评估环节也是重点探索领域。目前评估方式相对简单，主要基于CPU推理。但从行业发展趋势看，随应用场景日益复杂，未来必然需要更多GPU参与，因需模拟的场景将更复杂。目前仅使用简单规则评分，不需要GPU强大计算能力，CPU足以胜任。但展望未来，如让模型玩游戏或在元宇宙中模拟，评估场景将需同时使用CPU和GPU，构建庞大评估系统。

我简单列举相关内容，这些是为在超大规模RL中更贴近现实场景做的前期准备。在评估部分，有两篇前沿论文值得关注。第一篇是OpenAI研究员姚顺宇撰写的《The Second Half》，提到未来大语言模型竞争将不再仅是预训练数据量比拼，而是看谁能收集更多现实交互中的经验。这些经验及相应演变过程，与我之前提到对应。若认同模型将越来越自主与世界交互，下一步评估部分需求肯定会增加。

强化学习在大语言模型中的系统设计与未来发展强化学习大语言模型 RLHF 系统设计第10张

训练部分看似最常规，但存在诸多挑战。在超大规模训练中，需考虑的最重要因素是在框架兼容性和效率间权衡。若您是行业从业者，在进行预训练和SFT时，基本会在不同框架间选择，要么是功能强大的Megatron，要么是像DeepSpeed这样较轻量级、基于Hugging Face体系的框架。但选择非随意，因像Megatron这样高效框架，维护成本较高，兼容性方面必牺牲一些与Hugging Face生态系统的互动性。而FSDP和DeepSpeed，现在很多人倾向在RL领域使用FSDP，包括FSDP2这种类似于ZeRO-3的方式。但存在历史惯性问题，如DeepSpeed中ZeRO-3和FSDP到底如何选择等，这些是训练过程中需仔细考虑的重要因素。

强化学习在大语言模型中的系统设计与未来发展强化学习大语言模型 RLHF 系统设计第11张

下图由蚂蚁集团黑石同学提供，非常感谢。讨论完这部分后，大家可能好奇这三者如何协同工作？这涉及调度问题。业内较通行做法是使用Ray框架，我不做过多具体介绍。它很容易帮助实现SPMD方式。具体地，虽然代码看起来在同一机器进程中运行，但在物理机集群上，它实际分配到不同节点上。如前所述，RL中一部分模型可能在一台机器的GPU卡上运行，而另一台机器做不同事情，如何将它们联合是非常棘手的问题。Ray可避免手动编写大量RPC代码，也不需直接使用底层通信库（如MPI或NCCL）实现节点间通信。

强化学习在大语言模型中的系统设计与未来发展强化学习大语言模型 RLHF 系统设计第12张

开源生态及社区共建

我最早参与的开源社区项目名为Open RLHF，当时第一版叫Open LLaMA2。那时LLaMA2刚推出，表现十分出色，我们觉得有必要打造类似项目，以便国内社区能借鉴和使用。因当时缺乏相关框架，大家不清楚如何入手，可以说是"不识庐山真面目"。于是，我们开发了一套非常简单的系统，基于Ray调度框架，结合了当时所有领域中效率最高且兼容性最好的调度方式。我们采用vLLM作为推理引擎，DeepSpeed作为训练引擎，并兼容了Hugging Face整个生态系统，就这样启动了RL项目。直到后来，RL领域发展迅猛，字节跳动推出了名为VeRL的框架。VeRL基于一篇论文的开源实践，融合了单控制器的核心优势以及多控制器的灵活性和效率。目前，这一领域生态良好，得到广泛应用。此外，还有AReaL框架，它侧重性能优先的异步性，性能表现极为出色。其设计思路与手动拆分模型方法有所不同，更多采用类似"货柜"方式，将开源社区中的优质资源进行整合。

强化学习在大语言模型中的系统设计与未来发展强化学习大语言模型 RLHF 系统设计第13张

阿里巴巴也推出了名为Roll的框架，由淘天集团主导开发。它的主要特点是针对Agentic方式进行设计，借鉴了RL中RL Gym的模式，帮助用户快速搭建Agentic的工作流程，有兴趣的用户可以尝试使用。最后是Slime，它的理念是用最简单的方式去做最大规模的事情，通过将SGLang与Megatron结合，以生成为中心进行开发。

强化学习在大语言模型中的系统设计与未来发展强化学习大语言模型 RLHF 系统设计第14张

本质上，这些框架区别并没那么大，因它们都是对超大规模系统设计的一种思考。它们都是从RLHF时代逐渐演进而来，主要区别在于采用了什么样的调度引擎、训练引擎，推理是如何设计的，以及它们各自的特点。若大家感兴趣，可以自行下载并进行实验，因为它们都是开源的。中国的厂商在这个领域表现得非常勤奋，推出了许多高质量框架，为用户提供了丰富选择。

强化学习在大语言模型中的系统设计与未来发展强化学习大语言模型 RLHF 系统设计第15张

结语

RL的算法和系统在过去几年中发生巨大变化。我们从简单的人类反馈发展到环境反馈，完成了多轮的持续提升。每次技术变革，我们都能看到模型迭代的变化，例如从O1到O3，再到R1等等。所有这些算法都离不开背后的超大规模RL系统以及算法工程师的努力。我认为，未来我们的开源系统需要在几方面进行共建。首先，推理需要更高效、更灵活。例如，在推理过程中，能否根据序列长度动态调整并行化策略，实现自动化的张量并行。其次，评估目前还处于相对早期阶段，未来评估系统所占的算力将大幅提升。最后，虽然我们在训练方面已有解决方案，但还没有完全兼顾到性能和生态之间的平衡，还有很大提升空间。我认为要打造一个生态活跃且具有业务价值的RL系统，仍需算法和系统的协同设计。欢迎大家积极参与到我们的整体设计共建中来。