以DeepSeek R1为代表的一系列基于强化学习(RLVR)微调的工作,显著提升了大型语言模型的推理能力。然而,强化微调的背后隐藏着令人震惊的高昂代价。
这些代价中,很大一部分源自训练过程中的“低效”。试想,如果一直让“数学尖子生”做诸如“1+1”的简单题或是他完全不会的难题,都是徒劳无功。真正高效的训练,需要那些“跳一跳,刚好够得着”的题目。
在学术界和工业界,主要有两种策略给大模型“挑题”:
“题海战术”(Uniform Sampling):从题库中随机抽取题目。但这种方法往往导致大量算力浪费在无法提供有效学习信号的题目上。
“先测后学”(Dynamic Sampling,DS):一些在线采样方法被提出以加速训练。然而,“自测”本身就需要大量的LLM推理,成本依然高昂。
那么,有没有一种方法既能精准地挑出难度最合适的题目,又不需要昂贵的大模型“自测”呢?
面对这一挑战,清华大学季向阳教授THU-IDM团队与慕尼黑大学CompVis团队合作,提出了一个全新的框架:基于模型预测的提示选择(Model Predictive Prompt Selection,MoPPS)。
该工作已被KDD 2026接收,受到包括阿里千问、腾讯混元、蚂蚁等业界的关注,以及UIUC张潼老师、UCL汪军老师、UvA Max Welling教授等知名学界团队的引用。
MoPPS解决的核心问题是:能否不需要昂贵的大模型评估,就动态预测题目难度,并据此精准挑选训练数据,从而更高效地提升模型推理能力?
MoPPS的想法和实现非常简单:
MoPPS将每一道题(prompt,τ)看作一个老虎机臂。
每个题目有一个未知的“获胜概率”,即在当前模型参数下,模型答对的概率(成功率)。训练的目标是优先选择那些对训练更有价值的题目,即成功率接近0.5的中等难度题。
MoPPS为每个题目配备一个Beta分布,用来估计其成功率:
无先验时,题目的成功率分布被初始化为均匀分布Beta(1,1)。如果有可靠先验可以对应设置以提升效果。
随着训练推进,大模型产生“成功/失败”的反馈,这些二值反馈被直接转化为对Beta分布的更新:
α′ = α + 成功次数, β′ = β + 失败次数
MoPPS不依赖真实LLM自测,而是直接从Beta分布中采样预测难度:
使用Thompson Sampling:为每个候选题目抽取一个难度估计值,平衡探索与利用。
从候选集中挑选出最接近目标难度γ∗≈0.5的题目(即“跳一跳够得着”的黄金题)。仅使用被选中的题目进行RL训练;随后,真实反馈反过来更新Beta分布,形成闭环。
MoPPS在数学、逻辑、视觉几何三大推理任务上展现出显著优势:
与需要大量额外推理的“先测后学”方法(如DS)相比,MoPPS达到相同性能所需的Rollouts减少了高达78.46%!
相较于传统的“题海战术”(Uniform采样),MoPPS总能为模型挑出最关键的题目,训练过程被大大加速。实现了高达1.6倍至1.8倍的训练加速,且训练效果更好。
实验证明,MoPPS预测的题目难度与真实的题目难度之间具有极高的相关性(Spearman Rank Correlation),证明了其预测的有效性和可靠性。
1. 兼容多种强化学习算法:
MoPPS作为“数据筛选器”可以即插即用,适配PPO、GRPO、Reinforce++等多种RL算法。
本文由主机测评网于2026-04-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260435639.html