腾讯RLVER框架：为AI“情商”打造有效RL闭环

在缺乏标准答案的开放式对话中，强化学习（RL）应如何应对？

多轮对话是大型模型面临的典型开放任务，其特点包括高频次、多轮次、强情境依赖，且“优质回复”因人而异。

然而，当尝试用RL优化大模型在真实交互中的“情商”时，RLVR遭遇了“三大困境”：

真实对话是多轮、动态且高度个性化的。如何构建一个既真实、多样，又能供模型自由探索（rollout）的交互环境？

“高情商”没有标准答案。如何将用户的主观满意度转化为稳定、可优化的长期奖励？

如何在LLM上实现稳定、高效的多轮在线RL训练？

腾讯混元数字人团队提出的RLVER(Reinforcement Learning with Verifiable Emotion Rewards)框架为上述问题提供了解决思路：

通过构建一个稳定、高质量的用户模拟器，同时扮演“交互环境”和“奖励来源”的双重角色，成功将RLVR引入多轮对话，为大模型在开放域RL训练提供了有效、可扩展的新方法。

腾讯RLVER框架：为AI“情商”打造有效RL闭环 RLVER 情商强化学习多轮对话第1张

模型现已开源，链接请见文末。

RLVER：为“情商”这一开放问题，构建有效的RL闭环

传统对话优化，要么依赖静态数据，要么依赖昂贵的人工标注。

而RLVER探索了一条新路径：以“环境+奖励”一体化的用户模拟器为核心，巧妙地解决了上述三大挑战。

腾讯RLVER框架：为AI“情商”打造有效RL闭环 RLVER 情商强化学习多轮对话第2张

RLVER团队认识到，真正的“高情商”是因人而异的，因此，RLVER构建的用户模拟器不仅是一个简单的对话机器人。

它具备多样的用户画像和用户交互场景（不同的用户性格、对话背景、潜在需求），能模拟出大量真实、多变的用户。

每个用户独立、动态地与模型交互，根据模型的回复实时更新情绪状态，并给出个性化反馈。

这为模型提供了一个可以无限探索、充满真实感和多样性的在线学习环境，同时避免reward hacking。

腾讯RLVER框架：为AI“情商”打造有效RL闭环 RLVER 情商强化学习多轮对话第3张

经过RLVER训练的Qwen2.5-7B模型，在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2，表现与GPT-4o、Gemini 2.5 Pro等顶级商用模型相当。