如今,LLM(大型语言模型)已经展现出了卓越的推理能力,而这背后的一大关键推动力便是测试时扩展(test-time scaling)。
一般而言,通过延长思维链(CoT),我们得以延长「思考时间」,从而显著提升性能,特别是在采用大规模强化学习和可验证奖励 (RLVR) 进行优化时。
然而,对于某些需要创造性推理转变或容易陷入细微中间错误的难题,较长的思维链却显得力不从心。在这些情况下,模型通常依赖内部的自我反思,但往往难以发现错误,也无法在初始方法存在缺陷时进行自我纠正。
因此,模型不仅要能更长时间地思考,还应该要能「更聪明」地思考。为此,可以引入更高级的认知能力,让模型可以自主地利用合适的工具,从工具环境提供的反馈信号中进行推理、验证和学习。
近期,微软研究院的一支研究团队探索了使用主动式强化学习(agentic reinforcement learning)来实现这一目标,即模型会与专用工具环境中的工具进行交互,并根据收到的反馈调整其推理方式。
他们的探索成果便是rStar2-Agent——一种强大的主动式强化学习方法。利用此方法,该团队训练了一个 14B 的推理模型rStar2-Agent-14B——其性能达到前沿水平,甚至超越了 671B 的 DeepSeek-R1!
这项研究在社交网络上引起了广泛关注。
接下来,我们就来简要了解微软是如何打造出这个能以小搏大的模型的。
论文标题:rStar2-Agent: Agentic Reasoning Technical Report
论文地址:https://arxiv.org/pdf/2508.20722
代码地址:https://github.com/microsoft/rStar
本研究使用的环境是 Python 编程工具和解释器。
Python 编程工具能够拓宽模型的行动空间,使其能够探索替代方案并验证中间步骤,从而在单靠较长的 CoT 不足的情况下补充内部的自我反思。
然而,在该环境中有效地扩展主动式强化学习却非常困难。
首先,编程工具和 Python 解释器的固有复杂性会将环境噪声引入推理过程。当模型不可避免地生成语法或逻辑上错误的代码时,由此产生的环境反馈(例如错误消息)可能会导致模型浪费宝贵的 token 来纠正错误,而不是推进推理。遗憾的是,当前的强化学习方法主要依赖于「仅结果奖励」,这只会加剧这一问题,因为即使中间工具调用失败的轨迹仍然会获得正奖励,只要最终答案正确即可。如此一来,该模型就会将错误视为可接受的,并生成冗长且低质量的推理轨迹。
微软提出的 rStar2-Agent 包含了三大关键创新。
第一,该团队为大规模主动式强化学习构建了一个高效可靠的基础架构。
他们构建了一个高吞吐量、独立的代码环境,能够处理 45K 个并发工具调用,平均执行反馈仅需 0.3 秒即可返回。
为了解决强化学习 rollout 效率低下的问题,他们引入了一个负载均衡的 rollout 调度程序,该调度程序会根据 GPU 上可用的键值缓存容量动态分配 rollout 请求,从而最大限度地提高计算利用率。
即使在 GPU 资源有限的情况下,该基础架构也能实现高效的强化学习训练。使用 64 块 MI300X GPU,该团队仅用一周时间就完成了 rStar2-Agent-14B 的训练。
最终,使用新方法,他们训练得到了一个模型并将其命名为 rStar2-Agent-14B。它只有 14B 大小,但却实现了超越 DeepSeek-R1 和 Kimi k1.5 等领先推理模型的强大数学推理性能。
本文由主机测评网于2026-04-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440566.html