当前位置：首页 > 科技资讯 > 正文

AI新纪元：从智能体到智能体组织的飞跃

从大型语言模型（LLM）到智能体（Agent），AI系统实现了从“言”到“行”的飞跃。

当多个Agent以组织形态出现，通过协同合作、并行工作产生超越个体智能的成果时，AI的下一个范式——“智能体组织”（agentic organization）应运而生。

尽管当前的LLM作为个体Agent已展现惊人的推理能力，但要实现“智能体组织”的愿景，LLM不仅要独立思考，还需作为有组织系统进行协同思考。

为此，微软团队提出了“异步思考”（AsyncThink）的LLM推理新方法，即将内部思考过程组织成可并发执行的结构，以解决现有并行思考方法的延迟高、适应性差等问题。

实验显示，AsyncThink在提高数学推理准确性的同时，将推理延迟降低了28%。此外，它还能泛化学到的异步思考能力，有效应对未见任务。

AI新纪元：从智能体到智能体组织的飞跃智能体组织异步思考 LLM 组织者-工作者第1张

研究方法

AsyncThink的核心是“组织者-工作者”（Organizer-Worker）思考协议。LLM扮演双重角色：

一方面，它是“组织者”，负责将复杂问题拆分为子任务，通过“Fork”（分叉）和“Join”（合并）安排任务顺序；另一方面，它还是“工作者”，执行子任务并返回中间结果。

AI新纪元：从智能体到智能体组织的飞跃智能体组织异步思考 LLM 组织者-工作者第2张

通过这种方式，模型不仅能并行处理多个子问题，还能动态调整思路，实现更灵活、高效的推理。

为训练AsyncThink模型，他们提出了两阶段训练过程：冷启动格式微调、强化学习。

此阶段让现有LLM经过微调，掌握AsyncThink框架的组织语法与行动结构。

在数据合成环节，研究团队采用GPT-4o生成合成训练数据。GPT-4o分析输入问题，识别可独立求解的思考片段，按AsyncThink协议格式生成组织者与工作者的推理轨迹。

在结构初始化环节，研究团队随机采样不同的组织动作序列，嵌入训练提示中，提升模型结构的灵活性。

由于第一阶段仅教授了组织者行动的句法结构，模型仍缺乏生成最终答案的能力。因此，研究团队进行了第二阶段——强化学习，通过奖励指导模型学习效率高、准确性高的策略。

AI新纪元：从智能体到智能体组织的飞跃智能体组织异步思考 LLM 组织者-工作者第3张

在奖励模型中，通过准确性奖励确保最终答案正确；通过格式奖励确保模型生成的轨迹可执行；通过思考并发奖励促使模型进行异步而非顺序思考。

研究团队评估了AsyncThink模型在多解倒计时、数学推理和数独任务上的表现。实验表明，与序列思考和并行思考模型相比，AsyncThink始终能实现更高的准确性，同时降低延迟。

AsyncThink的全对率达89.0%，比并行思考（68.6%）和序列思考（70.5%）都高。这意味着它不仅准确率更高，还能覆盖更多解答。

在AIME-24上：AsyncThink的准确率为38.7%，延迟为1468.0；在AMC-23上：AsyncThink的准确率为73.3%，延迟为1459.5。相较传统并行推理，它在保证精度的同时减少了约28%的推理延迟。

尽管只在倒计时任务上训练，但直接迁移到4×4数独时，AsyncThink依然表现最佳（准确率达89.4%，且延迟最低）。表明LLM学到的是可迁移的组织性思考模式。

在消融实验中，研究团队发现：格式微调（Format SFT）让LLM学会“语言”，即如何Fork与Join；强化学习（RL）让LLM学会“策略”，即何时Fork、如何Join才能更快更准；并发奖励（Rη Reward）则让LLM学会“效率”——平衡准确率与延迟。

尽管AsyncThink在提升LLM推理准确性和降低推理延迟方面表现出显著优势，但它仅是实现“智能体组织”愿景的起点。

未来工作将围绕“规模/多样性扩展”、“递归智能体组织”、“人-AI智能体组织”三方面继续探索“智能体组织”。

本文由主机测评网于2026-05-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543958.html