大语言模型(LLM)向智能体(Agent)的演进,标志着人工智能(AI)系统从语言理解到行动执行的范式跨越。
进一步而言,当多个智能体以组织形式协同运作,通过并行协作产生超越个体智能的成果时,AI的下一个范式——"智能体组织"(agentic organization)——便应运而生。
然而,尽管当前LLM作为个体智能体已展现出卓越的推理能力,但要真正实现"智能体组织"的愿景,LLM不仅需具备独立思考能力,还必须作为有组织的系统进行协同推理。
为此,微软研究团队提出了一种名为"异步思考"(AsyncThink)的LLM推理新方法,该方法将内部思考过程组织为可并发执行的结构,从而解决现有并行思考方法中延迟高、适应性弱、动态性差等挑战。
实验证明,相比并行思考,AsyncThink在提升数学推理准确率的同时,将推理延迟降低了28%。此外,AsyncThink还能泛化其学到的异步思考能力,无需额外训练即可有效处理未见任务。
论文链接:https://arxiv.org/pdf/2510.26658
AsyncThink的核心是"组织者-工作者"(Organizer-Worker)思考协议。在此协议中,LLM扮演双重角色:
一方面,它作为"组织者",负责将复杂问题分解为子任务,并通过"Fork"(分叉)和"Join"(合并)操作来调度任务顺序;另一方面,它也是"工作者",执行这些子任务并返回中间结果。
图|AsyncThink思考协议示例。该协议通过Fork-Join操作实现异步思考,从而控制思考轨迹。
通过这种方式,模型不仅能并行处理多个子问题,还能动态调整思路,实现更灵活、更高效的推理。
为训练AsyncThink模型,研究团队设计了一个两阶段训练流程:冷启动格式微调和强化学习。
这一阶段旨在通过冷启动格式微调,使现有LLM掌握AsyncThink框架的组织语法与行动结构。
在数据合成环节,由于现有语料中缺乏"组织者–工作者"思考样本,研究团队利用GPT-4o生成合成训练数据。GPT-4o首先分析输入问题,识别可独立求解的思考片段;随后按照AsyncThink协议格式分别生成组织者与工作者的推理轨迹。
在结构初始化环节,为提升模型灵活性,研究团队随机采样不同的组织动作序列,并将结构样例嵌入训练提示中,使模型能在多样结构下学习,从而生成更具多样性的思考拓扑。
在数据合成与结构初始化完成后,研究团队对基础LLM进行监督微调,赋予模型发出有效组织者行动的能力。
在此阶段,模型仅学会模仿格式,尚未掌握利用异步思考生成正确答案的能力。
由于第一阶段仅教授了组织者行动的句法结构,模型仍缺乏运用该机制生成最终答案的能力。因此,研究团队进行了第二阶段——强化学习,通过奖励机制引导模型学习高效、准确的策略。
图|AsyncThink强化学习框架示意图。
在奖励模型中,通过准确性奖励确保答案正确;通过格式奖励确保模型生成可执行轨迹;通过思考并发奖励激励模型进行异步而非顺序思考。
训练时,研究团队改进了群组相对策略优化(GRPO)算法,使其适应异步结构。模型生成的不再是简单思维链(CoT),而是由组织者和多个工作者组成的"思考结构"。最终奖励共享给整个结构的所有输出,确保各部分协同优化。
通过精细的奖励模型和优化机制,AsyncThink模型能动态高效地协调内部"智能体组织"解决实际问题。
研究团队评估了AsyncThink模型在多解倒计时、数学推理和数独任务上的表现。实验表明,相比序列思考和并行思考模型,AsyncThink始终实现更高准确性,同时降低延迟。
此外,研究团队通过消融研究进一步分析性能,凸显了AsyncThink"两阶段训练过程"的有效性。
具体如下:
AsyncThink的全对率达到89.0%,高于并行思考(68.6%)和序列思考(70.5%)。这表明它不仅准确率更高,还能覆盖更多解答。
图|多解倒计时任务评估结果。≥a Correct表示模型能否成功找到给定问题的唯一正确解。
在AIME-24上:AsyncThink准确率为38.7%,延迟为1468.0;在AMC-23上:准确率为73.3%,延迟为1459.5。相较传统并行推理,它在保证精度的同时减少约28%推理延迟。
图|AIME-24和AMC-23的数学推理评估结果。
尽管仅在倒计时任务上训练,但直接迁移到4×4数独时,AsyncThink仍表现最佳(准确率达89.4%,且延迟最低)。这表明LLM学到的不是具体模式,而是可迁移的组织性思考方式。
图|AsyncThink在4×4数独任务上的评估结果。
消融实验显示:格式微调(Format SFT)让LLM学会"语言",即如何Fork与Join;强化学习(RL)让LLM学会"策略",即何时Fork、如何Join以提升速度与精度;并发奖励(Rη Reward)则让LLM学会"效率"——平衡准确率与延迟。
图|通过移除AsyncThink关键组件进行的消融实验结果。
尽管AsyncThink在提升LLM推理准确性和降低延迟方面优势显著,但它仅是实现"智能体组织"愿景的起点。
未来工作将围绕"规模/多样性扩展""递归智能体组织""人-AI智能体组织"三方面深入探索"智能体组织"。
首先是扩展"工作者"数量。未来应研究异步思考的缩放规律:随着智能体池从少数增至数百甚至数千,准确性-延迟权衡如何演变。
其次是扩展智能体多样性。超越同质智能体池,转向由异构专家工作者组成的大型组织。这些智能体可针对特定领域(如数学、编码、数据分析)微调,并可配备不同外部工具(如代码解释器、数据库查询引擎或网络搜索API)。这为组织者带来更复杂、更强大的学习问题。
在此范式中,任何工作者可动态提升为子组织者,获得Fork自身子工作者团队的能力。这将实现灵活分层结构,自然适用于需多级分解的深度嵌套复杂问题。例如,一个组织者可能委托宽泛查询如"解决*问题",而指定工作者作为子组织者,Fork出三个子工作者并行测试不同引理(lemmas)。
关键前沿是将人类直接整合到智能体组织中,创建人类-AI协作框架。这可能涉及"人类作为组织者",使用Fork协议分配任务给AI工作者,或"人类作为工作者",由AI Fork出需人类判断的任务。此外,协作规划允许人类与AI在执行前共同设计异步策略。这一方向超越纯AI自主性,实现强大混合智能。
本文由主机测评网于2026-01-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118950.html