当前位置:首页 > 科技资讯 > 正文

POLAR:革新奖励模型,助力AI更懂人类

长期以来,使AI更贴近人类意图,一直是大型模型领域的重要议题。

奖励模型(RM)作为理解人类偏好的核心技术,对训练效果有着至关重要的影响。

2024年12月,OpenAI推出了强化微调(Reinforcement Fine-tuning,RFT)技术。在RFT过程中,打分器(Grader)会根据标准答案给出奖励分数,使模型学会如何给出正确结果。

POLAR:革新奖励模型,助力AI更懂人类 POLAR 奖励模型 强化微调 对比学习 第1张

受到此启发,一种可以规避奖励模型准确度低、泛化性差等问题的基于规则验证(RLVR)的方法应运而生。

然而,RLVR在许多情况下只能提供0/1奖励,无法给出更细粒度的偏好区分。

对于写诗、聊天这类开放性问题,RLVR的泛化能力受限,进而限制了在更通用场景中的应用。

针对这一问题,来自上海人工智能实验室和复旦大学的研究人员,提出了一种全新的奖励模型POLAR,并开源了1.8B和7B两个参数规模的版本。

与传统的基于绝对偏好的奖励模型不同,POLAR采用了全新的对比学习预训练范式,可以根据参考答案,灵活地对模型回复给出奖励分数。

实测结果表明,POLAR已经充分展现出了一个优秀Grader的潜质。

POLAR:革新奖励模型,助力AI更懂人类 POLAR 奖励模型 强化微调 对比学习 第2张

论文链接:https://arxiv.org/abs/2507.05197

项目链接:https://github.com/InternLM/POLAR

模型链接:https://huggingface.co/internlm/POLAR-7B

我们将开篇提到的OpenAl生物基因领域官方样例输入POLAR,并构造了一些模型回复后发现,POLAR可以完美地给出正确的偏序关系!

回复一(与参考完全一致):

FOXE3

分数:-0.278

回复二(正确答案Rank 1):

genes: [FOXE3, KDM5A, BBS5]

分数:-7.889

...

问题:请用一句话幽默地概括《三体》第二部。

参考回复(点出了黑暗森林和关键情节):

人类靠一句「我告老师了」击退三体人的太空舰队。

...

问题:帮我想3个形容雨很大的成语,要求不能重复。

参考回复:

1. 倾盆大雨 2. 暴雨如注 3. 瓢泼大雨

...

POLAR是怎么训出来的

POLAR采用了一种与绝对偏好解耦的、可以真正高效扩展的奖励建模新范式:策略判别学习(Policy Discriminative Learning,POLAR),使奖励模型能够像大语言模型一样,具备可扩展性和强泛化能力。

POLAR的Scaling效应

POLAR:革新奖励模型,助力AI更懂人类 POLAR 奖励模型 强化微调 对比学习 第3张

效果如何

POLAR:革新奖励模型,助力AI更懂人类 POLAR 奖励模型 强化微调 对比学习 第4张

结语

... POLAR作为一种全新的、可扩展的奖励模型预训练方法,为LLM后训练带来了新的可能,让通用RFT多了一种有效实践方案。...