当前位置:首页 > 科技资讯 > 正文

AI新纪元:从智能体到智能体组织的飞跃

从大型语言模型(LLM)到智能体(Agent),AI系统实现了从“言”到“行”的飞跃。

当多个Agent以组织形态出现,通过协同合作、并行工作产生超越个体智能的成果时,AI的下一个范式——“智能体组织”(agentic organization)应运而生。

尽管当前的LLM作为个体Agent已展现惊人的推理能力,但要实现“智能体组织”的愿景,LLM不仅要独立思考,还需作为有组织系统进行协同思考。

为此,微软团队提出了“异步思考”(AsyncThink)的LLM推理新方法,即将内部思考过程组织成可并发执行的结构,以解决现有并行思考方法的延迟高、适应性差等问题。

实验显示,AsyncThink在提高数学推理准确性的同时,将推理延迟降低了28%。此外,它还能泛化学到的异步思考能力,有效应对未见任务。

AI新纪元:从智能体到智能体组织的飞跃 智能体组织 异步思考 LLM 组织者-工作者 第1张

论文链接:https://arxiv.org/pdf/2510.26658

研究方法

AsyncThink的核心是“组织者-工作者”(Organizer-Worker)思考协议。LLM扮演双重角色:

一方面,它是“组织者”,负责将复杂问题拆分为子任务,通过“Fork”(分叉)和“Join”(合并)安排任务顺序;另一方面,它还是“工作者”,执行子任务并返回中间结果。

AI新纪元:从智能体到智能体组织的飞跃 智能体组织 异步思考 LLM 组织者-工作者 第2张

通过这种方式,模型不仅能并行处理多个子问题,还能动态调整思路,实现更灵活、高效的推理。

为训练AsyncThink模型,他们提出了两阶段训练过程:冷启动格式微调、强化学习。

1.冷启动格式微调

此阶段让现有LLM经过微调,掌握AsyncThink框架的组织语法与行动结构。

在数据合成环节,研究团队采用GPT-4o生成合成训练数据。GPT-4o分析输入问题,识别可独立求解的思考片段,按AsyncThink协议格式生成组织者与工作者的推理轨迹。

在结构初始化环节,研究团队随机采样不同的组织动作序列,嵌入训练提示中,提升模型结构的灵活性。

2.强化学习

由于第一阶段仅教授了组织者行动的句法结构,模型仍缺乏生成最终答案的能力。因此,研究团队进行了第二阶段——强化学习,通过奖励指导模型学习效率高、准确性高的策略。

AI新纪元:从智能体到智能体组织的飞跃 智能体组织 异步思考 LLM 组织者-工作者 第3张

在奖励模型中,通过准确性奖励确保最终答案正确;通过格式奖励确保模型生成的轨迹可执行;通过思考并发奖励促使模型进行异步而非顺序思考。

实验评估

研究团队评估了AsyncThink模型在多解倒计时、数学推理和数独任务上的表现。实验表明,与序列思考和并行思考模型相比,AsyncThink始终能实现更高的准确性,同时降低延迟。

1.多解倒计时实验

AsyncThink的全对率达89.0%,比并行思考(68.6%)和序列思考(70.5%)都高。这意味着它不仅准确率更高,还能覆盖更多解答。

2.数学推理实验

在AIME-24上:AsyncThink的准确率为38.7%,延迟为1468.0;在AMC-23上:AsyncThink的准确率为73.3%,延迟为1459.5。相较传统并行推理,它在保证精度的同时减少了约28%的推理延迟。

3.跨任务泛化实验

尽管只在倒计时任务上训练,但直接迁移到4×4数独时,AsyncThink依然表现最佳(准确率达89.4%,且延迟最低)。表明LLM学到的是可迁移的组织性思考模式。

4.消融实验

在消融实验中,研究团队发现:格式微调(Format SFT)让LLM学会“语言”,即如何Fork与Join;强化学习(RL)让LLM学会“策略”,即何时Fork、如何Join才能更快更准;并发奖励(Rη Reward)则让LLM学会“效率”——平衡准确率与延迟。

未来工作

尽管AsyncThink在提升LLM推理准确性和降低推理延迟方面表现出显著优势,但它仅是实现“智能体组织”愿景的起点。

未来工作将围绕“规模/多样性扩展”、“递归智能体组织”、“人-AI智能体组织”三方面继续探索“智能体组织”。