当前位置:首页 > 科技资讯 > 正文

大语言模型后训练:GSPO vs GRPO,稳定性与效率之战

大型语言模型(LLM)的训练通常分为两个阶段:预训练后训练。预训练阶段通过大规模文本数据集让模型学会预测句子中的下一个词,而后训练阶段则旨在通过强化学习让模型更好地理解和执行人类指令。

在LLM的后训练阶段,强化学习(RL)算法正不断发展。起初,OpenAI开创了一种名为基于人类反馈的强化学习(RLHF)的技术,用于改进ChatGPT。而DeepSeek则通过RL技术自动化了这一过程,显著降低了成本并提高了效率。

OpenAI在ChatGPT的训练中采用了近端策略优化(PPO)。相比之下,DeepSeek团队提出了组相对策略优化(GRPO)算法,并成功应用于DeepSeek-R1模型中。

大语言模型后训练:GSPO vs GRPO,稳定性与效率之战 LLM后训练 强化学习 GSPO GRPO 第1张

近期,Qwen3系列模型的表现引起了广泛关注。其旗舰模型的性能与DeepSeek-R1等顶级模型相当,且Qwen3系列模型覆盖了MoE模型和密集模型,每款模型又有许多细分版本。

Qwen3系列模型在知识数学、编程等多个领域表现出色,甚至超越了Kimi-K2等顶级开源模型。Qwen团队发布了一篇论文,详细介绍了其模型后训练算法,包括新提出的组序列策略优化(GSPO)算法。

大语言模型后训练:GSPO vs GRPO,稳定性与效率之战 LLM后训练 强化学习 GSPO GRPO 第2张

论文标题:Group Sequence Policy Optimization

论文链接:[https://huggingface.co/papers/2507.18071](https://huggingface.co/papers/2507.18071)

博客链接:[https://qwenlm.github.io/blog/gspo/](https://qwenlm.github.io/blog/gspo/)

来自清华大学校友创立的创业公司NetMind.AI发表了一篇博客,对Qwen团队为Qwen3模型提出的GSPO算法进行了介绍与分析。该博客指出,使用GRPO训练大语言模型时存在稳定性问题,可能导致模型崩溃。

大语言模型后训练:GSPO vs GRPO,稳定性与效率之战 LLM后训练 强化学习 GSPO GRPO 第3张

Qwen团队认为GRPO方法存在严重问题,包括在每个token级别应用重要性采样会导致高方差积累,使训练不稳定。而GSPO通过将重要性采样从token级提升到序列级,有效解决了这些问题。

GRPO的根本问题:

“逐token重要性采样”的不稳定性

Qwen团队指出,GRPO的不稳定性源于对token级重要性采样权重的错误使用。在大语言模型的训练中,强化学习常常复用旧策略生成的响应,属于典型的“离策略”训练场景。然而,GRPO将重要性采样的权重应用在每一个token上,这种做法会引入高方差并破坏梯度稳定性。

Qwen团队的实验证据

Qwen团队通过实验验证了其理论分析。在所有展示的实验场景中,GSPO均表现出比GRPO更高的训练效率。在CodeForces任务中,GRPO的最终得分收敛于2000分以下,而GSPO随着训练计算量的增加持续提升成绩。

大语言模型后训练:GSPO vs GRPO,稳定性与效率之战 LLM后训练 强化学习 GSPO GRPO 第4张

Qwen的解决方案:

“序列级重要性采样”

GSPO的核心在于将重要性采样从token级转移至序列级。这种设计自然缓解了逐token方差的积累问题,从而显著提升了训练过程的稳定性。

实验验证的优势:

简化MoE模型训练

针对专家混合模型(MoE)的专项实验进一步强调了GSPO的优势。由于MoE模型的稀疏激活特性,使用GRPO时会加剧训练过程中的不稳定性。而GSPO无需使用额外的辅助策略就能实现稳定收敛。

结论:

GSPO或将成为新的标准

GSPO的方法包括将重要性采样提升到序列级别并通过序列长度进行归一化处理,这显著降低了方差并消除了对辅助策略的依赖。业界已普遍认同在大语言模型后训练阶段引入强化学习的重要性。

大量实验结果证实,GRPO采用的“逐token重要性采样”方法存在不稳定性和低效性的问题。因此,GSPO提出的“序列级重要性采样”很可能成为未来后训练强化学习的新标准。