当前位置:首页 > 科技资讯 > 正文

基础模型无需强化学习,通过采样算法展现卓越推理能力

强化学习在人工智能领域具有强大影响力,通常被视为训练推理模型的关键组成部分。许多研究人员正积极探索强化学习如何激发大模型的涌现行为。

现在,一个核心问题浮现:要让大语言模型掌握推理技能,强化学习是否不可或缺?

近期,哈佛大学的一项研究深入探讨了能否避免任何额外训练,仅通过纯采样技术使基础模型展示出推理能力。

基础模型无需强化学习,通过采样算法展现卓越推理能力 强化学习 大语言模型 推理能力 采样算法 第1张

他们的研究取得了成功,开发了一种基于基础模型自身似然度的简单迭代采样方法。

基础模型无需强化学习,通过采样算法展现卓越推理能力 强化学习 大语言模型 推理能力 采样算法 第2张

论文标题:Reasoning with Sampling: Your Base Model is Smarter Than You Think

论文地址:https://www.arxiv.org/pdf/2510.14901

项目网站:https://aakaran.github.io/reasoning_with_sampling/

代码地址:https://github.com/aakaran/reasoning-with-sampling

研究还证实,该算法在多种基础模型上均能显著增强推理性能。

基础模型无需强化学习,通过采样算法展现卓越推理能力 强化学习 大语言模型 推理能力 采样算法 第3张

这意味着:仅从基础模型进行采样,就能实现与强化学习媲美的单次推理效果!

更关键的是,该算法无需训练过程、无需标注数据集、也无需外部验证器,从而规避了强化学习方法的常见弱点,包括为稳定训练而进行的繁重超参数调优、构建大规模后训练数据集的挑战,以及难以获取真实奖励信号的问题。

这一发现确实令人印象深刻。

核心概念:分布锐化

哈佛团队的设计核心基于分布锐化(distribution sharpening)理念。

具体而言,对于一个参考分布,锐化通过重新调整权重,增强高似然度区域的比重,同时降低低似然度区域的比重,使得采样更倾向于参考分布中的高似然度样本。

基于此,如果经过强化学习后训练的模型本质上是基础模型的某种锐化形式,那么理论上可以通过明确目标采样分布来复制相同效果。

换言之,只要找到这一目标采样分布,就能赋予模型推理能力!

基础模型无需强化学习,通过采样算法展现卓越推理能力 强化学习 大语言模型 推理能力 采样算法 第4张

利用幂分布进行推理

团队发现,对于分布 p,一种自然的锐化方式是从幂分布 p^α 中采样。

由于数学关系,对 p 取幂会提高高似然度序列的相对权重,并减少低似然度序列的相对权重。

基础模型无需强化学习,通过采样算法展现卓越推理能力 强化学习 大语言模型 推理能力 采样算法 第5张

下图提供了直观的可视化说明:

基础模型无需强化学习,通过采样算法展现卓越推理能力 强化学习 大语言模型 推理能力 采样算法 第6张

一个广泛认知的相关锐化策略是低温采样,即在每一步对条件性下一 token 分布进行幂运算。

基础模型无需强化学习,通过采样算法展现卓越推理能力 强化学习 大语言模型 推理能力 采样算法 第7张

其中温度 τ = 1/α。一个常见误解是,在 T 个 token 上使用此式等同于从 p^α 采样;但团队指出这存在微妙而关键的错误。

命题:低温采样并非从幂分布 p^α 中采样。

该命题的证明详见原论文,此处不展开。

直观上,低温采样未考虑幂运算如何锐化时间步 t 的“未来路径”似然度,而是“贪婪地”平均所有未来似然度。相反,从 p^α 采样则内在考虑了未来完成情况,因为在计算下一 token 预测权重前,对所有未来路径进行了幂运算。

这导致一个结论:幂分布偏好未来路径少但似然度高的 token,而低温采样偏好未来路径多但似然度低的 token。

示例如下:

基础模型无需强化学习,通过采样算法展现卓越推理能力 强化学习 大语言模型 推理能力 采样算法 第8张

因此,从 p^α 采样鼓励选择具有较少但更高似然度未来路径的 token,这对推理任务极具价值。

例如,选择平均似然度高但导致低似然度个体未来的“错误”token,是关键窗口或关键性 token 的典型情况,这种现象表现为少数 token 对语言模型输出正确性有巨大影响。

事实上,研究表明尖锐的关键窗口与推理失败强相关。相反,幂分布采样过程内在包含了对未来高似然度 token 的规划偏向。

Metropolis-Hastings 算法

从理论上,我们看到从 p^α 采样如何提升底层 LLM 的推理能力。基于此,团队构建了一个算法以精确采样。

给定 LLM p,我们可以获取任意序列长度的 p^α 值,但这些值未归一化。直接采样需对所有序列归一化,计算上不可行。

为解决此问题,他们采用了名为 Metropolis-Hastings (MH) 的马尔可夫链蒙特卡洛算法,它能从未归一化分布中近似采样。

MH 算法使用任意提议分布 q(x|x^i) 选择下一个候选样本 x_{i+1},构建样本序列的马尔可夫链。

基础模型无需强化学习,通过采样算法展现卓越推理能力 强化学习 大语言模型 推理能力 采样算法 第9张

候选样本 x 以特定概率被接受为 x^{i+1}:

基础模型无需强化学习,通过采样算法展现卓越推理能力 强化学习 大语言模型 推理能力 采样算法 第10张

否则,MH 算法设置 x^{i+1} = x^i。此算法便捷,因为它仅需 p^α 的相对权重(归一化权重在计算中抵消),并能与任何易处理的采样器 q 配合,限制极少。只要样本量足够且提议分布满足不可约性和非周期性,过程即收敛到从 p^α 采样。

定义 1: 如果对于目标分布 p^α 下质量非零的任何集合 X,提议分布 q 最终从 X 采样的概率非零,则 q 不可约。如果导出样本链不会固定间隔后返回同一样本,则提议非周期。

因此,确保提议分布满足不可约性和非周期性后,Metropolis-Hastings 算法即可处理其余部分。

实践上,我们还希望 q(x|x^i) 及其逆 q(x^i|x) 易于计算。

以随机重采样提议分布为例,见下图:

基础模型无需强化学习,通过采样算法展现卓越推理能力 强化学习 大语言模型 推理能力 采样算法 第11张

设 p_prop 为提议 LLM。以均匀概率 1/T 从 [1, T] 选随机位置 t,并用 p_prop 从索引 t 重采样序列。转移似然度 q(x|x^i) 即此次重采样似然度。注意,在每个候选步骤中,我们都有非零概率在任意两序列间转换,因为总可能从 x 开头重采样。这确保提议分布既不可约也非周期。此外,由于对称性,q(x^i|x) 也易计算。

借助 Metropolis-Hastings 的灵活性,可为提议 LLM p_prop 选择任何 LLM,并采用任何采样策略(如低温采样)。

使用自回归 MCMC 进行幂采样

直接为 LLM 实现 Metropolis-Hastings 算法涉及用长度 T 的 token 序列初始化,并通过多次迭代生成新候选序列,计算成本高。

实际上,MCMC 算法的主要缺点是可能存在指数级混合时间,即糟糕初始化或提议分布选择可能导致需指数级样本才能收敛到目标分布。样本空间维度高时此问题更严重,而 token 序列空间 X^T 正是如此,尤其对于长序列/大 T 值。

为解决此问题,哈佛团队提出了一种利用自回归采样顺序结构的算法

他们定义了一系列中间分布,并从中逐步采样直至收敛到目标分布 p^α。具体来说,从中间分布采样的样本会启动下一中间分布的 Metropolis-Hastings 过程,有助于避免病态初始化。

该算法伪代码如下:

基础模型无需强化学习,通过采样算法展现卓越推理能力 强化学习 大语言模型 推理能力 采样算法 第12张

实验验证

团队通过实验验证算法有效性。

他们使用标准推理基准,涵盖数学、编程和 STEM(MATH500、HumanEval、GPQA),以及评估通用帮助能力的不可验证基准(AlpacaEval 2.0)。所有方法和基线均进行单次评估。

模型方面,为展示新采样算法效果,他们使用了 Qwen2.5Math-7B、Qwen2.5-7B 和 Phi-3.5-mini-instruct 等基础模型。对比 RL 基线采用论文《Spurious rewards: Rethinking training signals in RLVR》中的 GRPO 实现,用 MATH 训练集对这些模型后训练。

对于幂采样实现,团队设最大 T 为 T_max = 3072,块大小 B = 192。经验上,对于推理任务,α = 4.0 结合基础模型作为提议 LLM p_prop 并将采样温度设为 1/α 表现最佳。对于 AlpacaEval 2.0,使用更高温度(τ = 0.5)的提议分布可提升性能。

主要成果

主要结果见表 1。可见,对于不同家族的基础模型,新采样算法在各种推理和评估任务上,相对基线普遍实现了显著的单次准确度和分数提升,例如让 Phi-3.5-mini 在 HumanEval 提升 51.9%,让 Qwen2.5-Math 在 MATH500 提升 25.2%。

基础模型无需强化学习,通过采样算法展现卓越推理能力 强化学习 大语言模型 推理能力 采样算法 第13张

特别指出,在 MATH500 这一 RL 后训练的领域内任务上,幂采样实现的准确度与 GRPO 相当。

此外,在领域外推理任务上,新算法在 GPQA 上与 GRPO 持平,而在 HumanEval 上甚至超越 GRPO,最高提升达 59.8%。

同样,幂采样在不可验证的 AlpacaEval 2.0 上也稳定优于基线,表明性能提升可推广到可验证性之外领域。

这一简单且无需训练的采样算法的惊人成功,凸显了现有基础模型潜藏的推理能力。

优势概述

团队进一步分析了算法的优势,总结如下:

实现“两全其美”性能:幂采样能像 GRPO 一样生成高似然度、长篇幅的优质推理答案,但避免了“多样性崩溃”。在多次尝试场景下,其性能远超因答案单一而饱和的 GRPO,解决了强化学习以多样性换取单次性能的痛点。

推理时可灵活扩展且参数稳健:该方法提供“测试时计算换性能”途径,增加 MCMC 迭代步数即可提升准确率,即使少量增加也有显著效果。算法对关键超参数 α(幂指数)选择不敏感,易于实际部署和调优。

计算成本可行:虽然推理时计算量增加,但总成本仅相当于一轮 GRPO 训练,是一种无需重新训练、成本可控的性能提升方案。