当前位置:首页 > 科技资讯 > 正文

基础模型潜力爆发:无需训练即提升推理能力

强化学习在推理模型训练流程中已占据重要地位,但近日,哈佛大学的一项研究提出了一个令人耳目一新的观点:是否可以通过纯粹的采样,而非强化学习,让基础模型展现出卓越的推理能力?

研究团队通过一系列实验,成功验证了一种利用基础模型自身似然度的简单迭代采样算法,该算法无需任何额外训练,仅凭基础模型的潜力便能实现强大的推理效果。

基础模型潜力爆发:无需训练即提升推理能力 基础模型 推理能力 分布锐化 Metropolis-Hastings算法 第1张

该论文题为《Reasoning with Sampling: Your Base Model is Smarter Than You Think》,研究团队不仅证明了该算法的有效性,还展示了其在不同基础模型上的广泛应用性。

基础模型潜力爆发:无需训练即提升推理能力 基础模型 推理能力 分布锐化 Metropolis-Hastings算法 第2张

论文还指出,该算法避免了强化学习的一些固有弱点,如超参数搜索的复杂性、对多样化数据集的依赖,以及获取真实验证信号的难题。这一发现无疑为人工智能领域带来了新的启示。

核心概念:分布锐化

研究的核心在于分布锐化这一概念。简单来说,就是通过对参考分布进行重新加权,提升高似然度区域的权重,降低低似然度区域的权重,从而实现对高似然度样本的偏好性采样。

基于这一理念,如果经过强化学习训练的模型只是基础模型的某个锐化版本,那么理论上应能明确指定一个目标采样分布,实现同样的效果。

基础模型潜力爆发:无需训练即提升推理能力 基础模型 推理能力 分布锐化 Metropolis-Hastings算法 第3张

使用幂分布进行推理

团队发现,对分布 p 进行幂运算 p^α 是一种自然的锐化方法。通过对 p 取幂,可以增大高似然度序列的权重,同时减小低似然度序列的权重。

基础模型潜力爆发:无需训练即提升推理能力 基础模型 推理能力 分布锐化 Metropolis-Hastings算法 第4张

这种幂分布锐化策略与低温采样(low-temperature sampling)有相似之处,但两者在细节上存在微妙差异。研究团队指出,低温采样并非真正从幂分布 p^α 中采样。

Metropolis-Hastings 算法

为了从 p^α 中准确采样,研究团队采用了 Metropolis-Hastings(MH)算法。该算法能从未归一化的概率分布中进行近似采样,特别适用于此类场景。

基础模型潜力爆发:无需训练即提升推理能力 基础模型 推理能力 分布锐化 Metropolis-Hastings算法 第5张

MH 算法通过构建一个样本序列的马尔可夫链,实现了从目标分布 p^α 中的有效采样。只要提议分布满足不可约性和非周期性条件,该算法就能有效工作。

实验与结果

研究团队使用了一系列标准推理基准来验证算法的有效性,包括数学、编程和 STEM 任务。结果显示,新提出的采样算法在多个任务上均取得了显著的性能提升。

基础模型潜力爆发:无需训练即提升推理能力 基础模型 推理能力 分布锐化 Metropolis-Hastings算法 第6张

特别是在领域内任务上,新算法的准确度与强化学习方法相媲美。此外,在领域外推理任务上,新算法也展现出了卓越的性能。

优势总结

新算法不仅实现了高性能,还具备以下优势:

  • 两全其美的性能:新算法能生成高质量的推理答案,同时避免了多样性崩溃的问题。
  • 灵活的参数设置与扩展性:通过调整 MCMC 的迭代步数,可以进一步提升性能。算法对关键超参数的选择不敏感,易于部署和调优。
  • 计算成本可控:虽然增加了推理时的计算量,但总成本相对较低。