当前位置:首页 > 科技资讯 > 正文

MoPPS:高效挑题,大模型训练新范式

强化学习在大语言模型中的应用,如DeepSeek R1,已显著提升了模型的推理能力,但背后代价高昂。

训练过程中的低效是成本高的重要原因。如果一直做不合适的题目,既浪费时间又浪费资源。有效的训练需要“跳一跳,刚好够得着”的题目。

过去,学术界和工业界采用两种策略给大模型挑题:“题海战术”和“先测后学”。但前者浪费算力,后者需要大量大模型的推理,成本依然高昂。

有没有一种方法能精准挑题且不需要昂贵的大模型自测?

MoPPS:轻量预测,精准挑题

面对这一挑战,清华大学季向阳教授THU-IDM团队与慕尼黑大学CompVis团队合作,提出了基于模型预测的提示选择(Model Predictive Prompt Selection,MoPPS)框架。

MoPPS:高效挑题,大模型训练新范式 MoPPS 强化学习 大模型 训练效率 第1张

该工作已被KDD 2026接收,受到业界和学界广泛关注。

MoPPS解决的核心问题是:能否不依赖昂贵的大模型评估,就动态预测题目难度,并据此精准挑选训练数据,提升模型推理能力?

MoPPS:高效挑题,大模型训练新范式 MoPPS 强化学习 大模型 训练效率 第2张

MoPPS的想法和实现很简单:

1. 将题目建模为“老虎机”(Bandit Formulation)

MoPPS将每道题看作一个老虎机臂,每个题目有一个未知的“获胜概率”,即模型答对的概率。

2. 轻量化的贝叶斯难度预测(Bayesian Inference)

MoPPS为每个题目配备一个Beta分布,估计其成功率。随着训练推进,大模型产生“成功/失败”的反馈,这些反馈被转化为对Beta分布的更新。

3. 主动问题筛选(Active Selection with Thompson Sampling)

MoPPS不依赖真实LLM自测,而是直接从Beta分布中采样预测难度。使用Thompson Sampling,为每个候选题目抽取一个难度估计值,平衡探索与利用。

这种设计有三个优势:极低开销、动态适应、探索与利用平衡。

MoPPS提出了一种预测-采样-优化的新范式。

效果炸裂:提速1.8x,减少7成推理开销

MoPPS在三大推理任务上展现出显著优势:

算力成本大幅降低。

与需要大量额外推理的“先测后学”方法相比,MoPPS达到相同性能所需的Rollouts减少了高达78.46%!

训练效率显著提升。

相较于传统方法,MoPPS总能为模型挑出最关键的题目,训练过程被大大加速,实现了高达1.6倍至1.8倍的训练加速。

难度预测精准可靠。

实验证明,MoPPS预测的题目难度与真实难度之间具有极高的相关性。

方法适用性与拓展性强。

MoPPS兼容多种强化学习算法,支持不同采样策略并可引入先验信息。

总结

这项研究为大模型强化微调领域提供了一个“降本增效”的利器。MoPPS的核心在于“先预测,再优化”范式,未来有望应用于更大规模的大模型强化学习后训练。