强化学习作为驱动大语言模型智能跃升的关键技术,在大规模训练过程中扮演着既核心又复杂的角色。其挑战不仅限于算法设计,还涵盖了整个系统的架构需求。
本文基于阿里巴巴算法专家曹宇在AICon 2025北京站的分享《强化学习 AI 系统的设计实现及未来发展》,从传统的RLHF系统出发,结合实践案例探讨了RL系统的现状与发展路径。分享内容不仅涉及理论基础,还包含丰富的业界实践,并对开源生态及社区共建进行了深入探讨。
以下是经过InfoQ编辑整理的演讲实录。
今天,我很荣幸能与大家分享强化学习(Reinforcement Learning,简称RL)在大语言模型系统设计中的应用,以及对未来发展的几点初步建议。
强化学习算法的理论基础对工程化需求具有多方面的影响。我们的重点将放在工程化以及AI基础架构(AI Infra)领域,因此在基础算法方面会相对简略。强化学习中的Agent,过去通常指智能体,而现今更多地指大语言模型的智能体。强化学习系统算法的工程化成熟度,使得大语言模型与RL得以无缝融合。Agent既是强化学习算法的载体,也是大语言模型作为行动模型的载体。在策略与环境不断交互的过程中,算法理论要求大语言模型能够更高效地进行探索,并获得更好的奖励,从而更好地适应环境目标。
从下图左侧看似简单的算法理论来看,其执行逻辑实际上复杂得多。中间部分展示的是Open RLxF的执行逻辑图,与左侧的算法理论相比,它明显更为复杂。在实际执行过程中,有多个算法组件相互作用,帮助模型进行训练。这看起来已经有些复杂,但在实际工程实现中,情况更为复杂。感谢蚂蚁集团的AReaL,基于它运行的Open RLxF的实际工程运行图更是如此。
专业化的基础理论可以简单理解为环境如何与Agent进行交互。在聊天机器人场景中,环境就是大语言模型与人类交互的方式;在编程智能体场景中,环境则是策略网络、代码执行器等工具之间的交互。环境可以理解为大语言模型以及基于大语言模型的Agent的对手盘,即它们到底与谁进行交互。此外,策略是我们希望以Agent的形式表述的,它是智能体依据当前状态自主决定下一步如何行动的方式。
有了环境和策略之后,我们还需要两个重要因素:奖励函数和算法本身。奖励函数用于评判一个行为的好坏,而算法则是我们关注的重点。目前有许多算法,如PPO、GRPO、DPO等,它们更多地与策略相关,即如何根据状态、动作以及奖励历史函数来更新策略。
在算法方面,业内有一些实践经验。例如,Instruct GPT利用人类反馈强化学习的信号,研发出了一套能够遵循指令并具备理解能力的学习系统。然而,这种方法也存在“奖励劫持”现象,即奖励信号被模型利用,从而出现意想不到的情况。因此,业界实践中常采用人类反馈与机器反馈相结合的方式。
算法部分的核心在于评估信号的来源,即奖励函数的设计。从全局图来看,整个系统其实相对复杂。图中展示的是一个经典的PPO算法的全链路过程,涵盖了从推理、评估到训练的各个环节。今天的演讲也将围绕这三部分展开。
首先是最左上角的推理部分。这里的推理可以理解为推理模型的运行,即大模型根据输入的prompt生成响应的过程。这个过程的主要计算负载来自于模型在预处理和解码阶段的推理引擎。接着是评估过程,最传统的方式是利用人工反馈通过一个奖励模型进行近似学习。在大语言模型尤其是强化学习领域,评估环节的价值和耗时占比正变得越来越高。
右边的部分才是我们所说的训练过程。这个过程更接近于传统大模型的预训练和监督微调(SFT)。与传统的SFT和预训练过程不同,强化学习的数据是通过在线的推理和评估过程动态生成的。在训练过程中还涉及多个模型的同时训练。对于经典的PPO算法而言第一个模型就是我们自身的模型。
在后续的实践中,我们的算法探索逐渐走向了两条不同的道路。首先,我们看到了PPO算法虽然相对复杂但在去年早期由于整个系统的复杂度较高我们考虑基于我们的BT奖励模型将PPO算法的损失函数设计成另一种形式。这种形式避免了奖励模型的训练和Critic函数的使用。然而这种方法的劣势也很明显比如假设过强容易过拟合等。
从宏观角度看强化学习领域的变化速度远远超出了我们的想象。我们刚刚讨论的内容主要集中在左侧的部分即人类反馈强化学习在模型安全性有用性以及表达性等领域的应用这些工作大多集中在2022年底。从RLHF到RLAIF我们看到强化学习的应用范围迅速扩展从简单地对齐人类指标转变为追求模型智能的上限即推理能力。
在下一阶段随着模型自主完成任务能力的增强端到端的强化学习将在业务场景中得到更广泛的探索。这种训练方法对强化学习算法来说是一个更大的挑战因此接下来我会结合强化学习在推理评估和训练方面的需求为大家做具体介绍。
我最早参与的开源社区项目名为Open RLHF当时我们的第一版叫Open LLaMA2。那时LLaMA2刚刚推出表现十分出色我们觉得有必要打造一个类似的项目以便国内社区能够有所借鉴和使用。于是我们开发了一套基于Ray调度框架的系统它结合了当时在所有领域中效率最高且兼容性最好的调度方式。
阿里巴巴也推出了一个名为Roll的框架由淘天集团主导开发。它的主要特点是针对Agentic方式进行了设计借鉴了强化学习中RL Gym的模式帮助用户快速搭建Agentic的工作流程。
强化学习的算法和系统在过去几年中发生了巨大的变化。每一次技术变革我们都能看到模型迭代的变化例如从O1到O3再到R1等等。所有这些算法都离不开背后的超大规模强化学习系统以及算法工程师的努力。我认为未来我们的开源系统需要在几个方面进行共建:首先推理需要更高效、更灵活;其次评估目前还处于相对早期阶段未来评估系统所占的算力将大幅提升;最后虽然我们在训练方面已经有了解决方案但还没有完全兼顾到性能和生态之间的平衡还有很大的提升空间。
本文由主机测评网于2026-05-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543903.html