强化学习在推理模型训练流程中已占据重要地位,但近日,哈佛大学的一项研究提出了一个令人耳目一新的观点:是否可以通过纯粹的采样,而非强化学习,让基础模型展现出卓越的推理能力?
研究团队通过一系列实验,成功验证了一种利用基础模型自身似然度的简单迭代采样算法,该算法无需任何额外训练,仅凭基础模型的潜力便能实现强大的推理效果。
该论文题为《Reasoning with Sampling: Your Base Model is Smarter Than You Think》,研究团队不仅证明了该算法的有效性,还展示了其在不同基础模型上的广泛应用性。
论文还指出,该算法避免了强化学习的一些固有弱点,如超参数搜索的复杂性、对多样化数据集的依赖,以及获取真实验证信号的难题。这一发现无疑为人工智能领域带来了新的启示。
研究的核心在于分布锐化这一概念。简单来说,就是通过对参考分布进行重新加权,提升高似然度区域的权重,降低低似然度区域的权重,从而实现对高似然度样本的偏好性采样。
基于这一理念,如果经过强化学习训练的模型只是基础模型的某个锐化版本,那么理论上应能明确指定一个目标采样分布,实现同样的效果。
团队发现,对分布 p 进行幂运算 p^α 是一种自然的锐化方法。通过对 p 取幂,可以增大高似然度序列的权重,同时减小低似然度序列的权重。
这种幂分布锐化策略与低温采样(low-temperature sampling)有相似之处,但两者在细节上存在微妙差异。研究团队指出,低温采样并非真正从幂分布 p^α 中采样。
为了从 p^α 中准确采样,研究团队采用了 Metropolis-Hastings(MH)算法。该算法能从未归一化的概率分布中进行近似采样,特别适用于此类场景。
MH 算法通过构建一个样本序列的马尔可夫链,实现了从目标分布 p^α 中的有效采样。只要提议分布满足不可约性和非周期性条件,该算法就能有效工作。
研究团队使用了一系列标准推理基准来验证算法的有效性,包括数学、编程和 STEM 任务。结果显示,新提出的采样算法在多个任务上均取得了显著的性能提升。
特别是在领域内任务上,新算法的准确度与强化学习方法相媲美。此外,在领域外推理任务上,新算法也展现出了卓越的性能。
新算法不仅实现了高性能,还具备以下优势:
本文由主机测评网于2026-05-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543152.html