当前位置:首页 > 科技资讯 > 正文

异步思考:LLM推理新范式驱动智能体组织协同演进

大语言模型(LLM)向智能体(Agent)的演进,标志着人工智能(AI)系统从语言理解到行动执行的范式跨越。

进一步而言,当多个智能体以组织形式协同运作,通过并行协作产生超越个体智能的成果时,AI的下一个范式——"智能体组织"(agentic organization)——便应运而生。

然而,尽管当前LLM作为个体智能体已展现出卓越的推理能力,但要真正实现"智能体组织"的愿景,LLM不仅需具备独立思考能力,还必须作为有组织的系统进行协同推理。

为此,微软研究团队提出了一种名为"异步思考"(AsyncThink)的LLM推理新方法,该方法将内部思考过程组织为可并发执行的结构,从而解决现有并行思考方法中延迟高、适应性弱、动态性差等挑战。

实验证明,相比并行思考,AsyncThink在提升数学推理准确率的同时,将推理延迟降低了28%。此外,AsyncThink还能泛化其学到的异步思考能力,无需额外训练即可有效处理未见任务。

异步思考:LLM推理新范式驱动智能体组织协同演进 异步思考 智能体组织 LLM推理 强化学习优化 第1张

论文链接:https://arxiv.org/pdf/2510.26658

研究方法

AsyncThink的核心是"组织者-工作者"(Organizer-Worker)思考协议。在此协议中,LLM扮演双重角色:

一方面,它作为"组织者",负责将复杂问题分解为子任务,并通过"Fork"(分叉)和"Join"(合并)操作来调度任务顺序;另一方面,它也是"工作者",执行这些子任务并返回中间结果。

异步思考:LLM推理新范式驱动智能体组织协同演进 异步思考 智能体组织 LLM推理 强化学习优化 第2张

图|AsyncThink思考协议示例。该协议通过Fork-Join操作实现异步思考,从而控制思考轨迹。

通过这种方式,模型不仅能并行处理多个子问题,还能动态调整思路,实现更灵活、更高效的推理。

为训练AsyncThink模型,研究团队设计了一个两阶段训练流程:冷启动格式微调和强化学习。

1.冷启动格式微调

这一阶段旨在通过冷启动格式微调,使现有LLM掌握AsyncThink框架的组织语法与行动结构。

在数据合成环节,由于现有语料中缺乏"组织者–工作者"思考样本,研究团队利用GPT-4o生成合成训练数据。GPT-4o首先分析输入问题,识别可独立求解的思考片段;随后按照AsyncThink协议格式分别生成组织者与工作者的推理轨迹。

在结构初始化环节,为提升模型灵活性,研究团队随机采样不同的组织动作序列,并将结构样例嵌入训练提示中,使模型能在多样结构下学习,从而生成更具多样性的思考拓扑。

在数据合成与结构初始化完成后,研究团队对基础LLM进行监督微调,赋予模型发出有效组织者行动的能力

在此阶段,模型仅学会模仿格式,尚未掌握利用异步思考生成正确答案的能力。

2.强化学习

由于第一阶段仅教授了组织者行动的句法结构,模型仍缺乏运用该机制生成最终答案的能力。因此,研究团队进行了第二阶段——强化学习,通过奖励机制引导模型学习高效、准确的策略。

异步思考:LLM推理新范式驱动智能体组织协同演进 异步思考 智能体组织 LLM推理 强化学习优化 第3张

图|AsyncThink强化学习框架示意图。

在奖励模型中,通过准确性奖励确保答案正确;通过格式奖励确保模型生成可执行轨迹;通过思考并发奖励激励模型进行异步而非顺序思考。

训练时,研究团队改进了群组相对策略优化(GRPO)算法,使其适应异步结构。模型生成的不再是简单思维链(CoT),而是由组织者和多个工作者组成的"思考结构"。最终奖励共享给整个结构的所有输出,确保各部分协同优化。

通过精细的奖励模型和优化机制,AsyncThink模型能动态高效地协调内部"智能体组织"解决实际问题。

实验评估

研究团队评估了AsyncThink模型在多解倒计时、数学推理和数独任务上的表现。实验表明,相比序列思考和并行思考模型,AsyncThink始终实现更高准确性,同时降低延迟。

此外,研究团队通过消融研究进一步分析性能,凸显了AsyncThink"两阶段训练过程"的有效性。

具体如下:

1.多解倒计时实验

AsyncThink的全对率达到89.0%,高于并行思考(68.6%)和序列思考(70.5%)。这表明它不仅准确率更高,还能覆盖更多解答。

异步思考:LLM推理新范式驱动智能体组织协同演进 异步思考 智能体组织 LLM推理 强化学习优化 第4张

图|多解倒计时任务评估结果。≥a Correct表示模型能否成功找到给定问题的唯一正确解。

2.数学推理实验

在AIME-24上:AsyncThink准确率为38.7%,延迟为1468.0;在AMC-23上:准确率为73.3%,延迟为1459.5。相较传统并行推理,它在保证精度的同时减少约28%推理延迟

异步思考:LLM推理新范式驱动智能体组织协同演进 异步思考 智能体组织 LLM推理 强化学习优化 第5张

图|AIME-24和AMC-23的数学推理评估结果。

3.跨任务泛化实验

尽管仅在倒计时任务上训练,但直接迁移到4×4数独时,AsyncThink仍表现最佳(准确率达89.4%,且延迟最低)。这表明LLM学到的不是具体模式,而是可迁移的组织性思考方式。

异步思考:LLM推理新范式驱动智能体组织协同演进 异步思考 智能体组织 LLM推理 强化学习优化 第6张

图|AsyncThink在4×4数独任务上的评估结果。

4.消融实验

消融实验显示:格式微调(Format SFT)让LLM学会"语言",即如何Fork与Join;强化学习(RL)让LLM学会"策略",即何时Fork、如何Join以提升速度与精度;并发奖励(Rη Reward)则让LLM学会"效率"——平衡准确率与延迟。

异步思考:LLM推理新范式驱动智能体组织协同演进 异步思考 智能体组织 LLM推理 强化学习优化 第7张

图|通过移除AsyncThink关键组件进行的消融实验结果。

未来工作

尽管AsyncThink在提升LLM推理准确性和降低延迟方面优势显著,但它仅是实现"智能体组织"愿景的起点。

未来工作将围绕"规模/多样性扩展""递归智能体组织""人-AI智能体组织"三方面深入探索"智能体组织"

1.扩展智能体的规模和多样性

首先是扩展"工作者"数量。未来应研究异步思考的缩放规律:随着智能体池从少数增至数百甚至数千,准确性-延迟权衡如何演变。

其次是扩展智能体多样性。超越同质智能体池,转向由异构专家工作者组成的大型组织。这些智能体可针对特定领域(如数学、编码、数据分析)微调,并可配备不同外部工具(如代码解释器、数据库查询引擎或网络搜索API)。这为组织者带来更复杂、更强大的学习问题。

2.递归智能体组织

在此范式中,任何工作者可动态提升为子组织者,获得Fork自身子工作者团队的能力。这将实现灵活分层结构,自然适用于需多级分解的深度嵌套复杂问题。例如,一个组织者可能委托宽泛查询如"解决*问题",而指定工作者作为子组织者,Fork出三个子工作者并行测试不同引理(lemmas)。

3.人类-AI智能体组织

关键前沿是将人类直接整合到智能体组织中,创建人类-AI协作框架。这可能涉及"人类作为组织者",使用Fork协议分配任务给AI工作者,或"人类作为工作者",由AI Fork出需人类判断的任务。此外,协作规划允许人类与AI在执行前共同设计异步策略。这一方向超越纯AI自主性,实现强大混合智能