当前位置：首页 > 科技资讯 > 正文

rStar2-Agent：微软主动式强化学习模型的革新

主机测评网
科技资讯
2026-04-26
658

如今，LLM（大型语言模型）已经展现出了卓越的推理能力，而这背后的一大关键推动力便是测试时扩展（test-time scaling）。

一般而言，通过延长思维链（CoT），我们得以延长「思考时间」，从而显著提升性能，特别是在采用大规模强化学习和可验证奖励 (RLVR) 进行优化时。

然而，对于某些需要创造性推理转变或容易陷入细微中间错误的难题，较长的思维链却显得力不从心。在这些情况下，模型通常依赖内部的自我反思，但往往难以发现错误，也无法在初始方法存在缺陷时进行自我纠正。

因此，模型不仅要能更长时间地思考，还应该要能「更聪明」地思考。为此，可以引入更高级的认知能力，让模型可以自主地利用合适的工具，从工具环境提供的反馈信号中进行推理、验证和学习。

近期，微软研究院的一支研究团队探索了使用主动式强化学习（agentic reinforcement learning）来实现这一目标，即模型会与专用工具环境中的工具进行交互，并根据收到的反馈调整其推理方式。

他们的探索成果便是rStar2-Agent——一种强大的主动式强化学习方法。利用此方法，该团队训练了一个 14B 的推理模型rStar2-Agent-14B——其性能达到前沿水平，甚至超越了 671B 的 DeepSeek-R1！

rStar2-Agent：微软主动式强化学习模型的革新主动式强化学习 rStar2-Agent 数学推理 Python编程工具第1张

这项研究在社交网络上引起了广泛关注。

rStar2-Agent：微软主动式强化学习模型的革新主动式强化学习 rStar2-Agent 数学推理 Python编程工具第2张

接下来，我们就来简要了解微软是如何打造出这个能以小搏大的模型的。

论文标题：rStar2-Agent: Agentic Reasoning Technical Report

论文地址：https://arxiv.org/pdf/2508.20722

代码地址：https://github.com/microsoft/rStar

环境与问题描述

本研究使用的环境是 Python 编程工具和解释器。

rStar2-Agent：微软主动式强化学习模型的革新主动式强化学习 rStar2-Agent 数学推理 Python编程工具第3张

Python 编程工具能够拓宽模型的行动空间，使其能够探索替代方案并验证中间步骤，从而在单靠较长的 CoT 不足的情况下补充内部的自我反思。

然而，在该环境中有效地扩展主动式强化学习却非常困难。

首先，编程工具和 Python 解释器的固有复杂性会将环境噪声引入推理过程。当模型不可避免地生成语法或逻辑上错误的代码时，由此产生的环境反馈（例如错误消息）可能会导致模型浪费宝贵的 token 来纠正错误，而不是推进推理。遗憾的是，当前的强化学习方法主要依赖于「仅结果奖励」，这只会加剧这一问题，因为即使中间工具调用失败的轨迹仍然会获得正奖励，只要最终答案正确即可。如此一来，该模型就会将错误视为可接受的，并生成冗长且低质量的推理轨迹。