当前位置：首页 > 科技资讯 > 正文

通用验证器：AI进化新航标

主机测评网
科技资讯
2026-04-29
615

在GPT-5发布前，据Information报道，其性能提升主要得益于研发的“通用验证器”（Universal Verifier）。尽管GPT-5后续升级未达预期，但通用验证器已成为大模型领域的热门话题。

为何它如此关键？

这主要因为上一波模型能力提升依赖于“可验证奖励强化学习”（RLVR）。这种方法适用于有标准答案的问题，答对加分，答错扣分。然而，现实世界复杂多变，很多问题没有唯一答案，如医疗、教育、创意领域。

要让模型进一步进化，必须突破“对错”奖励限制，使AI能像专家一样评估优劣，将非结构化经验数据转化为有效学习信号。通用验证器正是为此而生，可能引发强化学习下一次范式革新。

本文深入探讨大语言模型界的重要难题及解题思路，其中可能蕴含强化学习的下一次革新。文章较长，约8000字，但理解通用验证器，才能看懂GPT-5及之后的AI技术竞赛。

第一条路：让模型作为裁判，但标准更复杂

此路径逻辑简单：用已有通用判断能力的大模型做验证器。

“LLM-as-a-Judge”概念早在24年初即存在，被视为评估AI能力的工具，但并未与奖励模型挂钩。直到2024年8月，DeepMind的《生成式验证器》首次尝试将语言模型训练为强化学习验证器。

通用验证器：AI进化新航标通用验证器强化学习 AI进步奖励模型第1张

GenRM最初用于逻辑性强、步骤分明的领域，如数学和算法推理。随着RLVR兴起，其锋芒被掩盖。但在开放领域，如创意写作、复杂对话、人文分析，GenRM被重视。

后续研究深化了开放领域的复杂性。目前，这是构建“通用验证器”的主流流派。

1、构建多维度的评分细则

面对无确定解领域，构建多维度的“评分细则”。ScaleAI的《作为奖励的评分细则》展示了这一方向的研究进展。

通用验证器：AI进化新航标通用验证器强化学习 AI进步奖励模型第2张

RaR框架给出为AI构建结构化、多维度“价值体系”的方法。其逻辑三步：专家立法、模型释法、AI执法。

通用验证器：AI进化新航标通用验证器强化学习 AI进步奖励模型第3张

好的回答应具备哪些维度？不能由模型凭空想象。RaR第一步由人类专家和大语言模型定义评估“元框架”。

例如医学领域，提到评分细则涵盖事实正确性、理想回答特征等。专家还预先定义重要性等级。

通用验证器：AI进化新航标通用验证器强化学习 AI进步奖励模型第4张

尽管元规则由人类写，具体评价体系利用模型Scaleup。强大模型结合具体案例自动生成评分项清单。

每个项分配类别权重确定重要性。例如，“如何诊断肾结石”自动生成“必要标准：指出非对比螺旋CT的敏感性”。

这一步实现扩展性关键，将专家精力杠杆化为成千上万条标准。

进入强化学习循环，学生模型采用GPRO方法生成多个答案。裁判模型依据评分细则打分。

“学生AI”根据反馈不断优化生成策略。

用RaR框架训练后模型性能显著提升。在医学领域，Qwen2.5-7B得分从0.0818升至0.3194，性能提升近四倍。

2、Rubicon：解决跷跷板效应

蚂蚁集团联合浙江大学发布论文，方向一致但更进一步。

通用验证器：AI进化新航标通用验证器强化学习 AI进步奖励模型第5张

构建包含超过10,000个评分标准的大型系统，全面提升模型在人文、创意等领域表现。

训练Qwen-30B-A3B模型，仅使用5000多个样本，在开放式基准测试中实现5.2%绝对提升。

通用验证器：AI进化新航标通用验证器强化学习 AI进步奖励模型第6张

团队对训练方法升级，“评分细则”更精细，提升模型持续强化学习能力。

否决机制硬性过滤问题范例，饱和度感知聚合鼓励全面发展。

解决跷跷板效应

过去RL经验显示，一次强化学习项同时训练多种技能时，性能像跷跷板一样升降。

通用验证器：AI进化新航标通用验证器强化学习 AI进步奖励模型第7张

将所有领域标准混合训练无法实现全面提升。为此设计分阶段强化学习流程。

第一阶段：打好基础，使用可验证检查和静态评分标准。

第二阶段：使用针对具体领域和问题的“评分细则”进行训练。

两步训练法提升模型在创造力等七个开放式基准上的平均性能5.21%。

3、加强裁判模型

阿里夸克团队论文Writing-Zero选择加强裁判模型。

通用验证器：AI进化新航标通用验证器强化学习 AI进步奖励模型第8张

“成对生成式奖励模型”（GenRM）给出详细批判性分析后再打分。

“先批判，后打分”机制让AI裁判深度思考并给出具有高度区分度和可靠性的评估结果。

第二条路：相信模型自己的力量

除了LLMasJudge，“无外部验证器”路径也有效。

用模型自信度设定奖励

SEALab的《无验证器强化通用推理》用模型自信度设定奖励。

通用验证器：AI进化新航标通用验证器强化学习 AI进步奖励模型第9张

“VeriFree”方法用模型自己得出来的“预判正确率”作为奖励信号。

“INTUITOR”：自由心证

“INTUITOR”方法彻底相信模型本身能力。

通用验证器：AI进化新航标通用验证器强化学习 AI进步奖励模型第10张

云服务器阿里云服务器

本文由主机测评网于2026-04-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260441411.html

通用验证器：AI进化新航标