当前位置:首页 > 科技资讯 > 正文

腾讯RLVER框架:为AI“情商”打造有效RL闭环

在缺乏标准答案的开放式对话中,强化学习(RL)应如何应对?

多轮对话是大型模型面临的典型开放任务,其特点包括高频次、多轮次、强情境依赖,且“优质回复”因人而异。

然而,当尝试用RL优化大模型在真实交互中的“情商”时,RLVR遭遇了“三大困境”:

  • 环境困境

真实对话是多轮、动态且高度个性化的。如何构建一个既真实、多样,又能供模型自由探索(rollout)的交互环境?

  • 奖励困境

“高情商”没有标准答案。如何将用户的主观满意度转化为稳定、可优化的长期奖励?

  • 训练困境

如何在LLM上实现稳定、高效的多轮在线RL训练?

腾讯混元数字人团队提出的RLVER(Reinforcement Learning with Verifiable Emotion Rewards)框架为上述问题提供了解决思路:

通过构建一个稳定、高质量的用户模拟器,同时扮演“交互环境”和“奖励来源”的双重角色,成功将RLVR引入多轮对话,为大模型在开放域RL训练提供了有效、可扩展的新方法

腾讯RLVER框架:为AI“情商”打造有效RL闭环 RLVER  情商 强化学习 多轮对话 第1张

模型现已开源,链接请见文末。

RLVER:为“情商”这一开放问题,构建有效的RL闭环

传统对话优化,要么依赖静态数据,要么依赖昂贵的人工标注。

而RLVER探索了一条新路径:以“环境+奖励”一体化的用户模拟器为核心,巧妙地解决了上述三大挑战。

腾讯RLVER框架:为AI“情商”打造有效RL闭环 RLVER  情商 强化学习 多轮对话 第2张

模拟器即环境:创造一个“活”的对话世界

RLVER团队认识到,真正的“高情商”是因人而异的,因此,RLVER构建的用户模拟器不仅是一个简单的对话机器人。

它具备多样的用户画像和用户交互场景(不同的用户性格、对话背景、潜在需求),能模拟出大量真实、多变的用户。

每个用户独立、动态地与模型交互,根据模型的回复实时更新情绪状态,并给出个性化反馈。

这为模型提供了一个可以无限探索、充满真实感和多样性的在线学习环境,同时避免reward hacking。

核心成果:7B模型比肩“巨头旗舰”

腾讯RLVER框架:为AI“情商”打造有效RL闭环 RLVER  情商 强化学习 多轮对话 第3张

经过RLVER训练的Qwen2.5-7B模型,在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2,表现与GPT-4o、Gemini 2.5 Pro等顶级商用模型相当。

深度洞察:从思考到行动

洞察一:“思考式”v.s.“反应式”模型——通往“共情”的两种路径