当前位置：首页 > 科技资讯 > 正文

基础模型潜力爆发：无需训练即提升推理能力

强化学习在推理模型训练流程中已占据重要地位，但近日，哈佛大学的一项研究提出了一个令人耳目一新的观点：是否可以通过纯粹的采样，而非强化学习，让基础模型展现出卓越的推理能力？

研究团队通过一系列实验，成功验证了一种利用基础模型自身似然度的简单迭代采样算法，该算法无需任何额外训练，仅凭基础模型的潜力便能实现强大的推理效果。

基础模型潜力爆发：无需训练即提升推理能力基础模型推理能力分布锐化 Metropolis-Hastings算法第1张

该论文题为《Reasoning with Sampling: Your Base Model is Smarter Than You Think》，研究团队不仅证明了该算法的有效性，还展示了其在不同基础模型上的广泛应用性。

基础模型潜力爆发：无需训练即提升推理能力基础模型推理能力分布锐化 Metropolis-Hastings算法第2张

论文还指出，该算法避免了强化学习的一些固有弱点，如超参数搜索的复杂性、对多样化数据集的依赖，以及获取真实验证信号的难题。这一发现无疑为人工智能领域带来了新的启示。

核心概念：分布锐化

研究的核心在于分布锐化这一概念。简单来说，就是通过对参考分布进行重新加权，提升高似然度区域的权重，降低低似然度区域的权重，从而实现对高似然度样本的偏好性采样。

基于这一理念，如果经过强化学习训练的模型只是基础模型的某个锐化版本，那么理论上应能明确指定一个目标采样分布，实现同样的效果。

基础模型潜力爆发：无需训练即提升推理能力基础模型推理能力分布锐化 Metropolis-Hastings算法第3张

团队发现，对分布 p 进行幂运算 p^α 是一种自然的锐化方法。通过对 p 取幂，可以增大高似然度序列的权重，同时减小低似然度序列的权重。

基础模型潜力爆发：无需训练即提升推理能力基础模型推理能力分布锐化 Metropolis-Hastings算法第4张

这种幂分布锐化策略与低温采样（low-temperature sampling）有相似之处，但两者在细节上存在微妙差异。研究团队指出，低温采样并非真正从幂分布 p^α 中采样。

为了从 p^α 中准确采样，研究团队采用了 Metropolis-Hastings（MH）算法。该算法能从未归一化的概率分布中进行近似采样，特别适用于此类场景。

基础模型潜力爆发：无需训练即提升推理能力基础模型推理能力分布锐化 Metropolis-Hastings算法第5张

MH 算法通过构建一个样本序列的马尔可夫链，实现了从目标分布 p^α 中的有效采样。只要提议分布满足不可约性和非周期性条件，该算法就能有效工作。

研究团队使用了一系列标准推理基准来验证算法的有效性，包括数学、编程和 STEM 任务。结果显示，新提出的采样算法在多个任务上均取得了显著的性能提升。

基础模型潜力爆发：无需训练即提升推理能力基础模型推理能力分布锐化 Metropolis-Hastings算法第6张

特别是在领域内任务上，新算法的准确度与强化学习方法相媲美。此外，在领域外推理任务上，新算法也展现出了卓越的性能。

新算法不仅实现了高性能，还具备以下优势：

本文由主机测评网于2026-05-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543152.html