长期以来,使AI更贴近人类意图,一直是大型模型领域的重要议题。
奖励模型(RM)作为理解人类偏好的核心技术,对训练效果有着至关重要的影响。
2024年12月,OpenAI推出了强化微调(Reinforcement Fine-tuning,RFT)技术。在RFT过程中,打分器(Grader)会根据标准答案给出奖励分数,使模型学会如何给出正确结果。
受到此启发,一种可以规避奖励模型准确度低、泛化性差等问题的基于规则验证(RLVR)的方法应运而生。
然而,RLVR在许多情况下只能提供0/1奖励,无法给出更细粒度的偏好区分。
对于写诗、聊天这类开放性问题,RLVR的泛化能力受限,进而限制了在更通用场景中的应用。
针对这一问题,来自上海人工智能实验室和复旦大学的研究人员,提出了一种全新的奖励模型POLAR,并开源了1.8B和7B两个参数规模的版本。
与传统的基于绝对偏好的奖励模型不同,POLAR采用了全新的对比学习预训练范式,可以根据参考答案,灵活地对模型回复给出奖励分数。
实测结果表明,POLAR已经充分展现出了一个优秀Grader的潜质。
论文链接:https://arxiv.org/abs/2507.05197
项目链接:https://github.com/InternLM/POLAR
模型链接:https://huggingface.co/internlm/POLAR-7B
我们将开篇提到的OpenAl生物基因领域官方样例输入POLAR,并构造了一些模型回复后发现,POLAR可以完美地给出正确的偏序关系!
回复一(与参考完全一致):
FOXE3
分数:-0.278
回复二(正确答案Rank 1):
genes: [FOXE3, KDM5A, BBS5]
分数:-7.889
...
问题:请用一句话幽默地概括《三体》第二部。
参考回复(点出了黑暗森林和关键情节):
人类靠一句「我告老师了」击退三体人的太空舰队。
...
问题:帮我想3个形容雨很大的成语,要求不能重复。
参考回复:
1. 倾盆大雨 2. 暴雨如注 3. 瓢泼大雨
...
POLAR采用了一种与绝对偏好解耦的、可以真正高效扩展的奖励建模新范式:策略判别学习(Policy Discriminative Learning,POLAR),使奖励模型能够像大语言模型一样,具备可扩展性和强泛化能力。
... POLAR作为一种全新的、可扩展的奖励模型预训练方法,为LLM后训练带来了新的可能,让通用RFT多了一种有效实践方案。...
本文由主机测评网于2026-04-13发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436497.html