当前位置：首页 > 科技资讯 > 正文

异步思考：LLM推理新范式驱动智能体组织协同演进

主机测评网
科技资讯
2026-01-20
536

大语言模型（LLM）向智能体（Agent）的演进，标志着人工智能（AI）系统从语言理解到行动执行的范式跨越。

进一步而言，当多个智能体以组织形式协同运作，通过并行协作产生超越个体智能的成果时，AI的下一个范式——"智能体组织"（agentic organization）——便应运而生。

然而，尽管当前LLM作为个体智能体已展现出卓越的推理能力，但要真正实现"智能体组织"的愿景，LLM不仅需具备独立思考能力，还必须作为有组织的系统进行协同推理。

为此，微软研究团队提出了一种名为"异步思考"（AsyncThink）的LLM推理新方法，该方法将内部思考过程组织为可并发执行的结构，从而解决现有并行思考方法中延迟高、适应性弱、动态性差等挑战。

实验证明，相比并行思考，AsyncThink在提升数学推理准确率的同时，将推理延迟降低了28%。此外，AsyncThink还能泛化其学到的异步思考能力，无需额外训练即可有效处理未见任务。

异步思考：LLM推理新范式驱动智能体组织协同演进异步思考智能体组织 LLM推理强化学习优化第1张

论文链接：https://arxiv.org/pdf/2510.26658

研究方法

AsyncThink的核心是"组织者-工作者"（Organizer-Worker）思考协议。在此协议中，LLM扮演双重角色：

一方面，它作为"组织者"，负责将复杂问题分解为子任务，并通过"Fork"（分叉）和"Join"（合并）操作来调度任务顺序；另一方面，它也是"工作者"，执行这些子任务并返回中间结果。

异步思考：LLM推理新范式驱动智能体组织协同演进异步思考智能体组织 LLM推理强化学习优化第2张

图｜AsyncThink思考协议示例。该协议通过Fork-Join操作实现异步思考，从而控制思考轨迹。

通过这种方式，模型不仅能并行处理多个子问题，还能动态调整思路，实现更灵活、更高效的推理。

为训练AsyncThink模型，研究团队设计了一个两阶段训练流程：冷启动格式微调和强化学习。

1.冷启动格式微调

这一阶段旨在通过冷启动格式微调，使现有LLM掌握AsyncThink框架的组织语法与行动结构。

在数据合成环节，由于现有语料中缺乏"组织者–工作者"思考样本，研究团队利用GPT-4o生成合成训练数据。GPT-4o首先分析输入问题，识别可独立求解的思考片段；随后按照AsyncThink协议格式分别生成组织者与工作者的推理轨迹。

在结构初始化环节，为提升模型灵活性，研究团队随机采样不同的组织动作序列，并将结构样例嵌入训练提示中，使模型能在多样结构下学习，从而生成更具多样性的思考拓扑。

在数据合成与结构初始化完成后，研究团队对基础LLM进行监督微调，赋予模型发出有效组织者行动的能力。

在此阶段，模型仅学会模仿格式，尚未掌握利用异步思考生成正确答案的能力。

2.强化学习

由于第一阶段仅教授了组织者行动的句法结构，模型仍缺乏运用该机制生成最终答案的能力。因此，研究团队进行了第二阶段——强化学习，通过奖励机制引导模型学习高效、准确的策略。

异步思考：LLM推理新范式驱动智能体组织协同演进异步思考智能体组织 LLM推理强化学习优化第3张

图｜AsyncThink强化学习框架示意图。

在奖励模型中，通过准确性奖励确保答案正确；通过格式奖励确保模型生成可执行轨迹；通过思考并发奖励激励模型进行异步而非顺序思考。

训练时，研究团队改进了群组相对策略优化（GRPO）算法，使其适应异步结构。模型生成的不再是简单思维链（CoT），而是由组织者和多个工作者组成的"思考结构"。最终奖励共享给整个结构的所有输出，确保各部分协同优化。

通过精细的奖励模型和优化机制，AsyncThink模型能动态高效地协调内部"智能体组织"解决实际问题。

实验评估

研究团队评估了AsyncThink模型在多解倒计时、数学推理和数独任务上的表现。实验表明，相比序列思考和并行思考模型，AsyncThink始终实现更高准确性，同时降低延迟。

此外，研究团队通过消融研究进一步分析性能，凸显了AsyncThink"两阶段训练过程"的有效性。

具体如下：

1.多解倒计时实验

AsyncThink的全对率达到89.0%，高于并行思考（68.6%）和序列思考（70.5%）。这表明它不仅准确率更高，还能覆盖更多解答。

异步思考：LLM推理新范式驱动智能体组织协同演进异步思考智能体组织 LLM推理强化学习优化第4张

图｜多解倒计时任务评估结果。≥a Correct表示模型能否成功找到给定问题的唯一正确解。

2.数学推理实验

在AIME-24上：AsyncThink准确率为38.7%，延迟为1468.0；在AMC-23上：准确率为73.3%，延迟为1459.5。相较传统并行推理，它在保证精度的同时减少约28%推理延迟。

异步思考：LLM推理新范式驱动智能体组织协同演进异步思考智能体组织 LLM推理强化学习优化第5张

图｜AIME-24和AMC-23的数学推理评估结果。

3.跨任务泛化实验

尽管仅在倒计时任务上训练，但直接迁移到4×4数独时，AsyncThink仍表现最佳（准确率达89.4%，且延迟最低）。这表明LLM学到的不是具体模式，而是可迁移的组织性思考方式。

异步思考：LLM推理新范式驱动智能体组织协同演进异步思考智能体组织 LLM推理强化学习优化第6张

图｜AsyncThink在4×4数独任务上的评估结果。

4.消融实验

消融实验显示：格式微调（Format SFT）让LLM学会"语言"，即如何Fork与Join；强化学习（RL）让LLM学会"策略"，即何时Fork、如何Join以提升速度与精度；并发奖励（Rη Reward）则让LLM学会"效率"——平衡准确率与延迟。

异步思考：LLM推理新范式驱动智能体组织协同演进异步思考智能体组织 LLM推理强化学习优化第7张

图｜通过移除AsyncThink关键组件进行的消融实验结果。

未来工作

尽管AsyncThink在提升LLM推理准确性和降低延迟方面优势显著，但它仅是实现"智能体组织"愿景的起点。

未来工作将围绕"规模/多样性扩展""递归智能体组织""人-AI智能体组织"三方面深入探索"智能体组织"。

1.扩展智能体的规模和多样性

首先是扩展"工作者"数量。未来应研究异步思考的缩放规律：随着智能体池从少数增至数百甚至数千，准确性-延迟权衡如何演变。

其次是扩展智能体多样性。超越同质智能体池，转向由异构专家工作者组成的大型组织。这些智能体可针对特定领域（如数学、编码、数据分析）微调，并可配备不同外部工具（如代码解释器、数据库查询引擎或网络搜索API）。这为组织者带来更复杂、更强大的学习问题。

2.递归智能体组织

在此范式中，任何工作者可动态提升为子组织者，获得Fork自身子工作者团队的能力。这将实现灵活分层结构，自然适用于需多级分解的深度嵌套复杂问题。例如，一个组织者可能委托宽泛查询如"解决*问题"，而指定工作者作为子组织者，Fork出三个子工作者并行测试不同引理（lemmas）。

3.人类-AI智能体组织

关键前沿是将人类直接整合到智能体组织中，创建人类-AI协作框架。这可能涉及"人类作为组织者"，使用Fork协议分配任务给AI工作者，或"人类作为工作者"，由AI Fork出需人类判断的任务。此外，协作规划允许人类与AI在执行前共同设计异步策略。这一方向超越纯AI自主性，实现强大混合智能。