POLAR：革新奖励模型，助力AI更懂人类

主机测评网
科技资讯
2026-04-13
904

长期以来，使AI更贴近人类意图，一直是大型模型领域的重要议题。

奖励模型（RM）作为理解人类偏好的核心技术，对训练效果有着至关重要的影响。

2024年12月，OpenAI推出了强化微调（Reinforcement Fine-tuning，RFT）技术。在RFT过程中，打分器（Grader）会根据标准答案给出奖励分数，使模型学会如何给出正确结果。

POLAR：革新奖励模型，助力AI更懂人类 POLAR 奖励模型强化微调对比学习第1张

受到此启发，一种可以规避奖励模型准确度低、泛化性差等问题的基于规则验证（RLVR）的方法应运而生。

然而，RLVR在许多情况下只能提供0/1奖励，无法给出更细粒度的偏好区分。

对于写诗、聊天这类开放性问题，RLVR的泛化能力受限，进而限制了在更通用场景中的应用。

针对这一问题，来自上海人工智能实验室和复旦大学的研究人员，提出了一种全新的奖励模型POLAR，并开源了1.8B和7B两个参数规模的版本。

与传统的基于绝对偏好的奖励模型不同，POLAR采用了全新的对比学习预训练范式，可以根据参考答案，灵活地对模型回复给出奖励分数。

实测结果表明，POLAR已经充分展现出了一个优秀Grader的潜质。

POLAR：革新奖励模型，助力AI更懂人类 POLAR 奖励模型强化微调对比学习第2张

论文链接：https://arxiv.org/abs/2507.05197

项目链接：https://github.com/InternLM/POLAR

模型链接：https://huggingface.co/internlm/POLAR-7B

我们将开篇提到的OpenAl生物基因领域官方样例输入POLAR，并构造了一些模型回复后发现，POLAR可以完美地给出正确的偏序关系！

回复一（与参考完全一致）：

FOXE3

分数：-0.278

回复二（正确答案Rank 1）：

genes: [FOXE3, KDM5A, BBS5]

分数：-7.889

...

问题：请用一句话幽默地概括《三体》第二部。

参考回复（点出了黑暗森林和关键情节）：

人类靠一句「我告老师了」击退三体人的太空舰队。

...

问题：帮我想3个形容雨很大的成语，要求不能重复。

参考回复：

1. 倾盆大雨 2. 暴雨如注 3. 瓢泼大雨

...

POLAR是怎么训出来的

POLAR采用了一种与绝对偏好解耦的、可以真正高效扩展的奖励建模新范式：策略判别学习（Policy Discriminative Learning，POLAR），使奖励模型能够像大语言模型一样，具备可扩展性和强泛化能力。

POLAR的Scaling效应

POLAR：革新奖励模型，助力AI更懂人类 POLAR 奖励模型强化微调对比学习第3张

效果如何

POLAR：革新奖励模型，助力AI更懂人类 POLAR 奖励模型强化微调对比学习第4张

结语

... POLAR作为一种全新的、可扩展的奖励模型预训练方法，为LLM后训练带来了新的可能，让通用RFT多了一种有效实践方案。...

免费vps 服务器教程免费服务器

本文由主机测评网于2026-04-13发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260436497.html

POLAR：革新奖励模型，助力AI更懂人类

POLAR是怎么训出来的

POLAR的Scaling效应

效果如何

结语

2026年服务器硬件配置指南

苏州双百亿基金亮相，加速产业与人才抢夺

POLAR：革新奖励模型，助力AI更懂人类

POLAR是怎么训出来的

POLAR的Scaling效应

效果如何

结语

2026年服务器硬件配置指南

苏州双百亿基金亮相，加速产业与人才抢夺

相关文章