当前位置:首页 > 科技资讯 > 正文

强化学习在大语言模型中的系统设计与未来发展

强化学习作为提升大语言模型智能水平的关键技术,始终是大模型训练中最为核心且复杂的环节。其复杂度不仅体现在算法设计上,还涉及系统整体的高标准要求。

本文基于阿里巴巴算法专家曹宇于今年6月在AICon 2025北京站的分享《强化学习AI系统的设计实现及未来发展》整理而成。分享从传统RLHF系统出发,结合算法实践展示了RL系统的现状与发展脉络。通过具体案例,与行业从业者共同探讨未来超大规模RL的发展方向,内容涵盖理论基础、业界实践以及开源生态与社区共建。

以下是演讲实录(经InfoQ编辑整理,未改变原意)。

今天,我很荣幸与大家分享关于强化学习(Reinforcement Learning,RL)在大语言模型系统设计中的应用,以及对未来发展的初步思考。

RLxF理论到工程化

从强化学习的理论基础看,其对工程化的需求是多维度的。本次重点聚焦于工程化与AI基础架构(AI Infra)领域,因此算法基础部分将简要提及。算法理论看似抽象简洁,呈现循环结构。强化学习中的Agent,传统上指智能体,如今更多指大语言模型的智能体。RL系统算法的工程化成熟度促进了大语言模型与RL的融合。Agent既是RL算法的载体,也是大语言模型作为行动模型的载体。本质上,算法理论要求策略在与环境持续交互中,使大语言模型更高效探索世界、获取奖励,从而适应环境目标。策略层面,核心是学习算法,即RL算法指导梯度更新以优化任务。环境层面,关键命题是奖励函数,即如何正确奖励问题,使模型学到有价值内容。

从下图左侧的算法理论看,其执行逻辑比想象复杂。中间部分是我参与的Open RLxF框架执行逻辑图,相比左侧更复杂,涉及多个算法组件,如绿色训练态模型和蓝色推理态模型,它们交互作用支持训练。实际工程实现更为复杂,感谢蚂蚁集团AReaL,基于其运行的Open RLxF工程运行图便是例证。这是工程化实践的现状。

强化学习在大语言模型中的系统设计与未来发展 强化学习 大语言模型 RLHF 系统设计 第1张

专业化基础理论可简化为:环境指Agent与世界的交互方式。在聊天机器人场景中,环境是大语言模型与人类的交互;在编程智能体场景中,环境涉及策略网络、代码执行器、浏览器等工具交互。环境可视为大语言模型及其Agent的对手盘,即交互对象,这是重要概念。策略以Agent形式表述,它基于当前状态(如用户输入和环境反馈)自主决定行动,这是模型从简单聊天机器人向Agent进化的分水岭,即能自主选择行为并采取最优策略。

环境和策略之外,还需两个要素:奖励函数,用于评判行为好坏,是关键输入。过去一两年,RL在大语言模型中的落地离不开奖励函数建模与优化,从人类反馈强化学习到基于宪法的反馈强化学习,再到基于可验证规则的强化学习,代表奖励信号来源扩大和任务难度提升。最后是算法本身,即研究者关注的PPO、GRPO、DPO等,涉及如何根据状态、动作和奖励历史更新策略,以改进智能体。这是算法概述。

算法方面有业界实践经验。早期主要聚焦人类反馈强化学习,这是引爆大模型热潮的关键,如Instruct GPT利用人类反馈信号,基于GPT-3基础模型开发出遵循指令和理解能力强的系统。训练方式较原始:人工评估模型响应好坏,用另一模型拟合人类判断,该模型也是大语言模型。这样,针对未来prompt和响应,有了人类反馈信号的近似,逼近模型能力上限。该方法优势在于模型结构简单、训练稳定,采用广泛使用的数学函数,在大量数据下具泛化能力和较好效果。

但存在劣势:人类标注和反馈有限,无法覆盖所有人类行为,导致"奖励劫持"现象,即模型利用奖励信号产生意外结果。因此,业界实践中常结合人类反馈与机器反馈。

下图截图来自DeepSeek生成式奖励模型的最佳实践。它在输出奖励分数前,以文字解释评分原因,好处是模型不仅能评分,还能解释选择。作为生成式模型,它具泛化性,推理中可通过多采样提升能力。此外,业界还有使用大语言模型本身作为奖励模型的方式,更灵活。例如,奖励模型评估可关注细粒度维度,以满足特定业务场景的领域监督信号要求,但成本较高,因使用大语言模型生成式推理,比直接输出token数值的模型更昂贵。

强化学习在大语言模型中的系统设计与未来发展 强化学习 大语言模型 RLHF 系统设计 第2张

核心算法与突破

算法核心在于评估信号来源,即奖励函数设计。从全局图看,系统相对复杂。下图展示经典传统PPO算法的全链路过程,覆盖推理、评估和训练,用两条虚线划分为三部分,演讲围绕这三部分展开。

首先是左上角的推理部分,指推理模型运行,即大模型根据prompt生成响应。计算负载来自模型预处理和解码阶段的推理引擎,这是模型与环境交互的过程。交互后如何训练?中间涉及评估过程。传统方式是利用人工反馈,通过奖励模型近似学习。但随演讲深入,评估环节的价值和耗时占比正变高,因需更全面方法评估模型能力。评估过程也涉及与环境复杂交互和验证,如代码执行器。

右边是训练过程,更接近传统大模型的预训练和监督微调。在SFT和预训练中,数据离线静态准备;而在RL中,数据通过在线推理和评估动态生成。训练过程涉及多个模型同时训练。对于经典PPO算法,第一个是自身模型,通过PPO损失函数限制更新步长和幅度,在梯度自信时基于优势更新策略函数。优势指行为相对平均好坏值。PPO基于Actor-Critic架构,还有Critic模型。两模型训练后,通过高速互联推回推理模型,形成循环多轮交互模式,使模型在线提升能力。这是传统RLHF训练方式。

强化学习在大语言模型中的系统设计与未来发展 强化学习 大语言模型 RLHF 系统设计 第3张

后续实践中,算法探索走向两条道路。其一,PPO算法虽复杂,但早期RL系统复杂度高,我们考虑基于BT奖励模型,若信号仅限于偏好对,可将PPO损失函数设计成另一形式,避免奖励模型训练和Critic函数使用。在某些业务场景效果较好。优势在于跳过奖励模型训练和优势估计,无需Critic模型训练和推理,便捷优化偏好对好坏。但劣势明显:假设强,即奖励模型须符合BT假设(一对好坏假设),但RL中有些领域无需比较相对好坏,如数学领域有绝对值。BT奖励模型非强假设,只要奖励信号准确可引入。同时,这是离线算法,不涉及训练中动态更新模型和推理新样本,易过拟合。如DPO算法,随RL框架成熟和算力提升,逐渐退出历史舞台。

强化学习在大语言模型中的系统设计与未来发展 强化学习 大语言模型 RLHF 系统设计 第4张

另一探索是DeepSeek R1成功应用的GRPO算法,它演化传统PPO算法。主要改进在Critic模型。问题在于,若使用Critic模型估计,Critic模型需见过较多历史轨迹,算法层面才能无偏估计,否则策略学习不准确。GRPO算法有趣之处在于,进行Critic估计时未用模型估计,而是重复推理多次,通过与均值和标准差关系估计优势。将PPO演进成此法后,在RLHF时代未显太多优势。但DeepSeek更关注编程等纯推理类场景效果。该算法最大优势是在推理类场景中,快速避免Critic函数训练成本及训练算法稳定性问题。未来,价值函数在RL中的作用仍是开放性问题。大语言RL时代前,价值函数很重要,如AlphaGo可节省推理时间,实质是以计算换计算。假设推理条数多,如16、32或128条,通过较准确函数可一次性推理。未来,在多轮长上下文交互下,相比GRPO,价值函数可能发挥更好作用。

强化学习在大语言模型中的系统设计与未来发展 强化学习 大语言模型 RLHF 系统设计 第5张

超大规模RL系统

宏观上,RL领域变化速度超想象。前文聚焦左侧部分,即人类反馈强化学习在模型安全性、有用性和表达性等领域的应用,工作多集中在2022年底。RL进展快,以周衡量。从RLHF到RLAIF,RL应用范围从对齐人类指标转向追求模型智能上限,即推理能力。

推理类模型训练方式与传统RL算法相比,算法变化不大,但系统架构和训练领域变化显著。以DeepSeek今年春节成功为例,采用GRPO算法,在可验证领域加大算力投入,实现智力水平显著提升。今年,许多大模型在高考场景接近985大学生成绩,而去年大模型还分不清9.8和9.1大小。一年间,RL演进和基础模型提升发挥关键作用。

强化学习在大语言模型中的系统设计与未来发展 强化学习 大语言模型 RLHF 系统设计 第6张

下一阶段,随模型自主完成任务能力增强,端到端RL,如Deep Research这种更自主模式,将在业务场景中广泛探索。这与单纯做题不同,做题是单次交互,通过自我思考得出答案,由RL验证器给信号后迭代提升。而RL目的更宏观,希望深入研究某一领域,这是开放型长期决策问题,需多次与互联网、代码执行器或更专业工具结合。

这种训练方法对RL算法是更大挑战。接下来结合RL在推理、评估和训练需求做具体介绍。总体趋势明显:从单轮、单信号RLHF,正朝多轮复杂交互条件下的端到端RL进化。RL系统不是单纯训练系统,它包含推理、评估和多个模型训练。迈向超大规模时,每个维度都面临升级挑战。同时,挑战在于如何整合系统,使其兼容并提高效率。

强化学习在大语言模型中的系统设计与未来发展 强化学习 大语言模型 RLHF 系统设计 第7张

超大规模RL系统的推理部分。在超大规模RL系统中,推理引擎未来将发挥更大作用。除推理引擎本身挑战外,RL推理还面临额外挑战。首先,需尽可能复用大规模推理系统进展,如早期项目使用基于Hugging Face的低效推理引擎,效率瓶颈在推理时间长时影响系统。因此,后来切换为利用Page Attention加速的VRM推理引擎。

强化学习在大语言模型中的系统设计与未来发展 强化学习 大语言模型 RLHF 系统设计 第8张

此外,RL系统是在线系统,模型权重随推理不断更新,这与推理系统不完全一致。通常,模型训练后部署到推理系统,加载CUDA Graph并优化。但RL系统每训练一步就需更新权重。对超大规模RL系统,这要求系统支持权重动态更新和高效传递。例如,DeepSeek的670亿参数模型权重需广播到整个集群,这是巨大挑战。同时,需更灵活打断机制,如推理中权重更新时,通知推理引擎停止推理,因继续推理得的数据是off-policy,对训练无意义。还有路由机制问题,因推理本身是分布式,至少涉及数据并行。如何将数据分配到合适机器,以更好利用KV Cache等资源,这也是超大规模系统挑战之一。

强化学习在大语言模型中的系统设计与未来发展 强化学习 大语言模型 RLHF 系统设计 第9张

另有一些细节需考虑。训练中,GPU卡可能被复用,既用于推理也用于训练。如何让两者和谐共处,减少权重传递带来的额外时间消耗?下图右侧展示实践案例,使用CUDA中先进技术,如CUDA IPC(Zero copy)方式,在内存中权重同步。在分离式情况下,服务集管控和同步也是大问题。目前,RL系统尚未达到超大并发PD分离模式,但随系统规模增大,瓶颈将出现在推理侧。因此,如何将现有推理系统中与RL相关的优化复用,形成高效系统,是未来超大规模长期系统中重要部分。总体调优倾向是优先考虑并发而非时延,因这不是直接面向用户的系统。若通过优化运营策略和算法调整,提高系统并发能力,训练侧瓶颈会更小。

在推理侧部分,目前探索一些前沿技术,旨在解决RL中特有的数据分布不一致性问题。具体地,用蓝色标记一条数据的推理过程,源自蚂蚁集团AReaL框架。该框架主要解决训练中推理样本长度参差不齐问题,有的样本长,有的短。为组成批次训练,最糟情况是所有短样本必须等待最长样本完成,导致大量时间浪费,因等待时间无法有效利用。

这种模式在当前常见推理框架中较典型,如类似vLLM的框架:等待一批推理完成后再收集和训练,训练结束后更新权重至模型,随后继续推进。为缓解时间浪费,有方法称为"一步离策略",即先完成推理,然后开始训练,在训练同时让另一组CPU继续推理。但即便如此,仍存在空跑现象,因数据结束时间无法预测,这是大语言模型自回归特性所致。

在AReaL框架及后续工作中,提出推理方面的新挑战,即推理过程必须可被打断。例如,推理到一半时,若模型更新,需中断推理,暂停当前进程,等待权重更新后重新计算KV Cache,然后继续推理。推理部分挑战巨大,因面对的可能是有数百甚至数千张GPU卡的大规模集群。

除推理部分,评估环节也是重点探索领域。目前评估方式相对简单,主要基于CPU推理。但从行业发展趋势看,随应用场景日益复杂,未来必然需要更多GPU参与,因需模拟的场景将更复杂。目前仅使用简单规则评分,不需要GPU强大计算能力,CPU足以胜任。但展望未来,如让模型玩游戏或在元宇宙中模拟,评估场景将需同时使用CPU和GPU,构建庞大评估系统。

我简单列举相关内容,这些是为在超大规模RL中更贴近现实场景做的前期准备。在评估部分,有两篇前沿论文值得关注。第一篇是OpenAI研究员姚顺宇撰写的《The Second Half》,提到未来大语言模型竞争将不再仅是预训练数据量比拼,而是看谁能收集更多现实交互中的经验。这些经验及相应演变过程,与我之前提到对应。若认同模型将越来越自主与世界交互,下一步评估部分需求肯定会增加。

强化学习在大语言模型中的系统设计与未来发展 强化学习 大语言模型 RLHF 系统设计 第10张

训练部分看似最常规,但存在诸多挑战。在超大规模训练中,需考虑的最重要因素是在框架兼容性和效率间权衡。若您是行业从业者,在进行预训练和SFT时,基本会在不同框架间选择,要么是功能强大的Megatron,要么是像DeepSpeed这样较轻量级、基于Hugging Face体系的框架。但选择非随意,因像Megatron这样高效框架,维护成本较高,兼容性方面必牺牲一些与Hugging Face生态系统的互动性。而FSDP和DeepSpeed,现在很多人倾向在RL领域使用FSDP,包括FSDP2这种类似于ZeRO-3的方式。但存在历史惯性问题,如DeepSpeed中ZeRO-3和FSDP到底如何选择等,这些是训练过程中需仔细考虑的重要因素。

强化学习在大语言模型中的系统设计与未来发展 强化学习 大语言模型 RLHF 系统设计 第11张

下图由蚂蚁集团黑石同学提供,非常感谢。讨论完这部分后,大家可能好奇这三者如何协同工作?这涉及调度问题。业内较通行做法是使用Ray框架,我不做过多具体介绍。它很容易帮助实现SPMD方式。具体地,虽然代码看起来在同一机器进程中运行,但在物理机集群上,它实际分配到不同节点上。如前所述,RL中一部分模型可能在一台机器的GPU卡上运行,而另一台机器做不同事情,如何将它们联合是非常棘手的问题。Ray可避免手动编写大量RPC代码,也不需直接使用底层通信库(如MPI或NCCL)实现节点间通信。

强化学习在大语言模型中的系统设计与未来发展 强化学习 大语言模型 RLHF 系统设计 第12张

开源生态及社区共建

我最早参与的开源社区项目名为Open RLHF,当时第一版叫Open LLaMA2。那时LLaMA2刚推出,表现十分出色,我们觉得有必要打造类似项目,以便国内社区能借鉴和使用。因当时缺乏相关框架,大家不清楚如何入手,可以说是"不识庐山真面目"。于是,我们开发了一套非常简单的系统,基于Ray调度框架,结合了当时所有领域中效率最高且兼容性最好的调度方式。我们采用vLLM作为推理引擎,DeepSpeed作为训练引擎,并兼容了Hugging Face整个生态系统,就这样启动了RL项目。直到后来,RL领域发展迅猛,字节跳动推出了名为VeRL的框架。VeRL基于一篇论文的开源实践,融合了单控制器的核心优势以及多控制器的灵活性和效率。目前,这一领域生态良好,得到广泛应用。此外,还有AReaL框架,它侧重性能优先的异步性,性能表现极为出色。其设计思路与手动拆分模型方法有所不同,更多采用类似"货柜"方式,将开源社区中的优质资源进行整合。

强化学习在大语言模型中的系统设计与未来发展 强化学习 大语言模型 RLHF 系统设计 第13张

阿里巴巴也推出了名为Roll的框架,由淘天集团主导开发。它的主要特点是针对Agentic方式进行设计,借鉴了RL中RL Gym的模式,帮助用户快速搭建Agentic的工作流程,有兴趣的用户可以尝试使用。最后是Slime,它的理念是用最简单的方式去做最大规模的事情,通过将SGLang与Megatron结合,以生成为中心进行开发。

强化学习在大语言模型中的系统设计与未来发展 强化学习 大语言模型 RLHF 系统设计 第14张

本质上,这些框架区别并没那么大,因它们都是对超大规模系统设计的一种思考。它们都是从RLHF时代逐渐演进而来,主要区别在于采用了什么样的调度引擎、训练引擎,推理是如何设计的,以及它们各自的特点。若大家感兴趣,可以自行下载并进行实验,因为它们都是开源的。中国的厂商在这个领域表现得非常勤奋,推出了许多高质量框架,为用户提供了丰富选择。

强化学习在大语言模型中的系统设计与未来发展 强化学习 大语言模型 RLHF 系统设计 第15张

结语

RL的算法和系统在过去几年中发生巨大变化。我们从简单的人类反馈发展到环境反馈,完成了多轮的持续提升。每次技术变革,我们都能看到模型迭代的变化,例如从O1到O3,再到R1等等。所有这些算法都离不开背后的超大规模RL系统以及算法工程师的努力。我认为,未来我们的开源系统需要在几方面进行共建。首先,推理需要更高效、更灵活。例如,在推理过程中,能否根据序列长度动态调整并行化策略,实现自动化的张量并行。其次,评估目前还处于相对早期阶段,未来评估系统所占的算力将大幅提升。最后,虽然我们在训练方面已有解决方案,但还没有完全兼顾到性能和生态之间的平衡,还有很大提升空间。我认为要打造一个生态活跃且具有业务价值的RL系统,仍需算法和系统的协同设计。欢迎大家积极参与到我们的整体设计共建中来。