当前位置：首页 > 科技资讯 > 正文

MoPPS：高效挑题，大模型训练新范式

强化学习在大语言模型中的应用，如DeepSeek R1，已显著提升了模型的推理能力，但背后代价高昂。

训练过程中的低效是成本高的重要原因。如果一直做不合适的题目，既浪费时间又浪费资源。有效的训练需要“跳一跳，刚好够得着”的题目。

过去，学术界和工业界采用两种策略给大模型挑题：“题海战术”和“先测后学”。但前者浪费算力，后者需要大量大模型的推理，成本依然高昂。

有没有一种方法能精准挑题且不需要昂贵的大模型自测？

MoPPS：轻量预测，精准挑题

面对这一挑战，清华大学季向阳教授THU-IDM团队与慕尼黑大学CompVis团队合作，提出了基于模型预测的提示选择（Model Predictive Prompt Selection，MoPPS）框架。

MoPPS：高效挑题，大模型训练新范式 MoPPS 强化学习大模型训练效率第1张

该工作已被KDD 2026接收，受到业界和学界广泛关注。

MoPPS解决的核心问题是：能否不依赖昂贵的大模型评估，就动态预测题目难度，并据此精准挑选训练数据，提升模型推理能力？

MoPPS：高效挑题，大模型训练新范式 MoPPS 强化学习大模型训练效率第2张

MoPPS的想法和实现很简单：

MoPPS将每道题看作一个老虎机臂，每个题目有一个未知的“获胜概率”，即模型答对的概率。

MoPPS为每个题目配备一个Beta分布，估计其成功率。随着训练推进，大模型产生“成功/失败”的反馈，这些反馈被转化为对Beta分布的更新。

MoPPS不依赖真实LLM自测，而是直接从Beta分布中采样预测难度。使用Thompson Sampling，为每个候选题目抽取一个难度估计值，平衡探索与利用。

这种设计有三个优势：极低开销、动态适应、探索与利用平衡。

MoPPS提出了一种预测-采样-优化的新范式。

MoPPS在三大推理任务上展现出显著优势：

与需要大量额外推理的“先测后学”方法相比，MoPPS达到相同性能所需的Rollouts减少了高达78.46%！

相较于传统方法，MoPPS总能为模型挑出最关键的题目，训练过程被大大加速，实现了高达1.6倍至1.8倍的训练加速。

实验证明，MoPPS预测的题目难度与真实难度之间具有极高的相关性。

MoPPS兼容多种强化学习算法，支持不同采样策略并可引入先验信息。

这项研究为大模型强化微调领域提供了一个“降本增效”的利器。MoPPS的核心在于“先预测，再优化”范式，未来有望应用于更大规模的大模型强化学习后训练。

本文由主机测评网于2026-07-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260748554.html