当前位置:首页 > 科技资讯 > 正文

通用验证器:AI进化新航标

在GPT-5发布前,据Information报道,其性能提升主要得益于研发的“通用验证器”(Universal Verifier)。尽管GPT-5后续升级未达预期,但通用验证器已成为大模型领域的热门话题。

为何它如此关键?

这主要因为上一波模型能力提升依赖于“可验证奖励强化学习”(RLVR)。这种方法适用于有标准答案的问题,答对加分,答错扣分。然而,现实世界复杂多变,很多问题没有唯一答案,如医疗、教育、创意领域。

要让模型进一步进化,必须突破“对错”奖励限制,使AI能像专家一样评估优劣,将非结构化经验数据转化为有效学习信号。通用验证器正是为此而生,可能引发强化学习下一次范式革新。

本文深入探讨大语言模型界的重要难题及解题思路,其中可能蕴含强化学习的下一次革新。文章较长,约8000字,但理解通用验证器,才能看懂GPT-5及之后的AI技术竞赛。

第一条路:让模型作为裁判,但标准更复杂

此路径逻辑简单:用已有通用判断能力的大模型做验证器。

“LLM-as-a-Judge”概念早在24年初即存在,被视为评估AI能力的工具,但并未与奖励模型挂钩。直到2024年8月,DeepMind的《生成式验证器》首次尝试将语言模型训练为强化学习验证器。

通用验证器:AI进化新航标 通用验证器  强化学习 AI进步 奖励模型 第1张

GenRM最初用于逻辑性强、步骤分明的领域,如数学和算法推理。随着RLVR兴起,其锋芒被掩盖。但在开放领域,如创意写作、复杂对话、人文分析,GenRM被重视。

后续研究深化了开放领域的复杂性。目前,这是构建“通用验证器”的主流流派。

1、构建多维度的评分细则

面对无确定解领域,构建多维度的“评分细则”。ScaleAI的《作为奖励的评分细则》展示了这一方向的研究进展。

通用验证器:AI进化新航标 通用验证器  强化学习 AI进步 奖励模型 第2张

RaR框架给出为AI构建结构化、多维度“价值体系”的方法。其逻辑三步:专家立法、模型释法、AI执法。

通用验证器:AI进化新航标 通用验证器  强化学习 AI进步 奖励模型 第3张

好的回答应具备哪些维度?不能由模型凭空想象。RaR第一步由人类专家和大语言模型定义评估“元框架”。

例如医学领域,提到评分细则涵盖事实正确性、理想回答特征等。专家还预先定义重要性等级。

通用验证器:AI进化新航标 通用验证器  强化学习 AI进步 奖励模型 第4张

尽管元规则由人类写,具体评价体系利用模型Scaleup。强大模型结合具体案例自动生成评分项清单。

每个项分配类别权重确定重要性。例如,“如何诊断肾结石”自动生成“必要标准:指出非对比螺旋CT的敏感性”。

这一步实现扩展性关键,将专家精力杠杆化为成千上万条标准。

进入强化学习循环,学生模型采用GPRO方法生成多个答案。裁判模型依据评分细则打分。

“学生AI”根据反馈不断优化生成策略。

用RaR框架训练后模型性能显著提升。在医学领域,Qwen2.5-7B得分从0.0818升至0.3194,性能提升近四倍。

2、Rubicon:解决跷跷板效应

蚂蚁集团联合浙江大学发布论文,方向一致但更进一步。

通用验证器:AI进化新航标 通用验证器  强化学习 AI进步 奖励模型 第5张

构建包含超过10,000个评分标准的大型系统,全面提升模型在人文、创意等领域表现。

训练Qwen-30B-A3B模型,仅使用5000多个样本,在开放式基准测试中实现5.2%绝对提升。

通用验证器:AI进化新航标 通用验证器  强化学习 AI进步 奖励模型 第6张

团队对训练方法升级,“评分细则”更精细,提升模型持续强化学习能力。

否决机制硬性过滤问题范例,饱和度感知聚合鼓励全面发展。

解决跷跷板效应

过去RL经验显示,一次强化学习项同时训练多种技能时,性能像跷跷板一样升降。

通用验证器:AI进化新航标 通用验证器  强化学习 AI进步 奖励模型 第7张

将所有领域标准混合训练无法实现全面提升。为此设计分阶段强化学习流程。

第一阶段:打好基础,使用可验证检查和静态评分标准。

第二阶段:使用针对具体领域和问题的“评分细则”进行训练。

两步训练法提升模型在创造力等七个开放式基准上的平均性能5.21%。

3、加强裁判模型

阿里夸克团队论文Writing-Zero选择加强裁判模型。

通用验证器:AI进化新航标 通用验证器  强化学习 AI进步 奖励模型 第8张

“成对生成式奖励模型”(GenRM)给出详细批判性分析后再打分。

“先批判,后打分”机制让AI裁判深度思考并给出具有高度区分度和可靠性的评估结果。

第二条路:相信模型自己的力量

除了LLMasJudge,“无外部验证器”路径也有效。

用模型自信度设定奖励

SEALab的《无验证器强化通用推理》用模型自信度设定奖励。

通用验证器:AI进化新航标 通用验证器  强化学习 AI进步 奖励模型 第9张

“VeriFree”方法用模型自己得出来的“预判正确率”作为奖励信号。

“INTUITOR”:自由心证

“INTUITOR”方法彻底相信模型本身能力。

通用验证器:AI进化新航标 通用验证器  强化学习 AI进步 奖励模型 第10张