利用强化学习技术赋予大语言模型推理能力已被证明效果显著,然而其背后所需的计算资源却极其昂贵,成为实际应用的一大障碍。
这类模型在回应问题之前通常会生成一段冗长的思维链;研究发现,增加“思考令牌”的数量确实能够提升模型的性能表现。与任何强化学习任务类似,整个过程中存在一个决定轨迹生成方式的环境框架。
对于专注于推理的LLM而言,这个环境设计往往过于简单而被忽略:其状态由初始提示词与截至目前所产生的所有推理令牌拼接而成,而动作则是由策略模型采样得到的下一个令牌。
这种设计看似轻巧,却可能引发状态空间无限膨胀的问题——随着思考过程的持续,状态规模会不断增长。对于依赖注意力机制的策略模型来说,这直接导致了计算复杂度呈令人望而却步的二次方增长。
为了缓解长思考带来的计算压力,学术界已提出了多种方案,包括引入长度正则化的目标函数、采用剪枝技术或早期停止策略等。
近日,Mila、微软研究院等机构的联合团队另辟蹊径,提出了一个根本性的新问题:能否重新设计环境,使其从根本上避免计算量的二次方增长?
他们开创了一种全新范式,让策略模型基于一个固定大小的状态进行推理。这种新型策略被命名为马尔可夫式思考机。
论文标题:The Markovian Thinker
论文地址:https://arxiv.org/abs/2510.06557v1
模型地址:https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd
代码仓库:https://github.com/McGill-NLP/the-markovian-thinker
该研究的共同第一作者之一Amirhossein Kazemnejad在社交平台𝕏上表示,Delethink的成功为强化学习思维环境的创新打开了大门。此外,马尔可夫思维的程度及其有效性表明,推理型LLM的构建方式可以多元化,甚至可以采用非二次复杂度的架构。
马尔可夫式思考机的核心理念在于重构强化学习的构成要素,确保策略所读取的有效状态大小始终有界,而不受总思考长度的影响。这一转变带来了深远的影响:更长的思考过程仅需线性的计算开销和恒定的内存占用,从而将“模型思考的时长”与“其必须处理的上下文量”这两个维度彻底解耦。
研究团队通过Delethink这一具体范式实现了上述思想。它是一个强化学习环境,通过将推理过程组织成一系列固定大小的“区块”来引导模型的马尔可夫行为。
Delethink将思维强化学习环境重新定义为一个分块的、具有马尔可夫性质的过程:生成过程以固定大小的区块为单位进行。在每个区块的边界,环境会将上下文重置为一个全新的提示词,该提示词包含原始查询以及来自前一个区块的一小段延续内容。
这迫使策略模型必须学会通过维持一个内部的文本状态来跨区块推进思考,从而构建出一个真正的“马尔可夫式思考机”。相比之下,传统的LongCoT环境会无限制地拼接令牌,导致其状态与模型上下文随着轨迹延长而无限增长。
研究论文中算法1的伪代码清晰地展示了针对单个查询的训练流程。
更多技术细节可参阅原论文。总之,经过Delethink范式设计后,无论是生成阶段还是用于更新策略的反向传播阶段,其计算开销都仅与思考长度呈线性关系,而在LongCoT中则是二次方关系。下图直观对比了当思考长度从n个令牌增长到nS个令牌时,LongCoT与Delethink在FLOPs、内存占用、反向传播时间及生成时间上的变化趋势。
实验结果表明,Delethink的效果非常显著。即使仅使用8K大小的区块进行推理,经过Delethink训练的DeepSeek R1-Distill 1.5B模型也能够进行长达24K令牌的思考。在相同的24K思考预算下,其在多个数学基准测试上的表现媲美甚至超越了传统的LongCoT-RL方法。
在测试时扩展性方面,Delethink展现出持续提升的潜力。当LongCoT-RL的性能达到平台期时,Delethink仍能通过延长思考带来额外的性能增益。
研究进一步推进,使用Delethink训练R1-Distill 1.5B模型进行长达96K令牌的思考。仅需少量额外的训练步骤,该模型就在AIME‘24竞赛题上达到了49%的准确率,其解题过程的平均长度约为36K令牌。
线性计算优势带来的效益是巨大的:根据实验数据估算,对于平均94K令牌的思考长度,采用LongCoT-RL训练需要27个H100-月,而使用Delethink仅需7个H100-月,成本大幅降低。
为了探究Delethink训练为何有效,团队深入分析了模型在强化学习初始化阶段的表现。
他们观察到,R1-Distill系列模型在未经任何额外训练或特定提示的情况下,已经能够以零样本的方式采样出符合马尔可夫特性的轨迹,甚至恢复了大部分标准LongCoT的性能。
这种强大的初始化状态为强化学习提供了大量符合期望行为的、分布内的正向样本,构成了一个有利的起点。团队进一步在Delethink环境中研究了参数量高达120B的推理模型。例如,GPT-OSS 120B在博士水平问题、编程任务、数学竞赛和填字游戏等多个挑战性领域都展现出了稳健的马尔可夫式思考能力。这些结果共同表明,Delethink范式与最先进的模型兼容,并具备良好的可扩展性。
马尔可夫式思考的成功实践表明,将思考长度与上下文大小解耦,在理论上允许下一代推理模型进行数百万令牌级别的超长思考。这项工作凸显了强化学习环境本身作为一个可调节的强大杠杆,对推动技术进步的重要性。它也启示我们,非二次复杂度的序列架构可能特别适合未来的推理模型,因为思考过程可以被有效地转化为马尔可夫式的、计算高效的形态。
本文由主机测评网于2026-01-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260115485.html