当前位置：首页 > 科技资讯 > 正文

AgentFlow：在线强化学习引领智能体系统新纪元

斯坦福等最新框架，利用在线强化学习技术，让智能体系统实现“以小搏大”，性能超越GPT-4o——

AgentFlow是一种创新范式，能够在线优化智能体系统，持续增强智能体处理复杂问题的能力。

它由规划器、执行器、验证器、生成器四个专业智能体组成的团队通过共享内存进行协作，采用新方法Flow-GRPO，在系统内部直接对其规划器智能体进行实时优化。

AgentFlow：在线强化学习引领智能体系统新纪元 AgentFlow 在线强化学习智能体系统 Flow-GRPO 第1张

以Qwen-2.5-7B-Instruct为基座模型的AgentFlow在10个基准测试中表现卓越：

搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%。

多项任务表现甚至超越比其大50倍的模型，如GPT-4o、Llama3.1-405B。

AgentFlow：在线强化学习引领智能体系统新纪元 AgentFlow 在线强化学习智能体系统 Flow-GRPO 第2张

AgentFlow发布后，引起了业界的广泛关注与好评。

AgentFlow：在线强化学习引领智能体系统新纪元 AgentFlow 在线强化学习智能体系统 Flow-GRPO 第3张

网友纷纷表示方向很棒：

多智能体流（multi-agent flow）给人的感觉就像“相位耦合推理”（phase-coupled reasoning）。很期待看到“协同能力”取代“规模”，成为衡量智能的指标。

AgentFlow：在线强化学习引领智能体系统新纪元 AgentFlow 在线强化学习智能体系统 Flow-GRPO 第4张

Flow-GRPO采用共享内存的多智能体架构设计精妙。其中验证智能体对幻觉化工具调用的阻断机制尤为关键——它能显著减少智能体工作流中典型的多步推理链误差传播。

AgentFlow：在线强化学习引领智能体系统新纪元 AgentFlow 在线强化学习智能体系统 Flow-GRPO 第5张

那么，AgentFlow究竟长啥样？

AgentFlow：在线强化学习引领智能体系统新纪元 AgentFlow 在线强化学习智能体系统 Flow-GRPO 第6张

工具集成的智能体系统+流中强化学习训练

自“AI下半场”开启以来，智能体在垂直领域与通用场景中发展迅速。然而，在复杂决策与持续优化能力方面，当前智能体仍存在一定局限。如何将智能体的推理能力与强化学习的自我进化机制深度融合，成为突破这一瓶颈的关键。

今年早些时候，随着DeepSeek-R1的发布，推理模型的训练方式迎来了新的启发。不久之后，伊利诺伊大学香槟分校（UIUC）发布Search-R1，揭示了如何通过强化学习训练能够自主推理并调用外部工具的推理模型。

在此之前，智能体系统的发展也从系统层面推动了智能体协作与可扩展性的提升，为后续相关研究奠定了坚实基础。

例如，LangGraph、PydanticAI、OWL等框架在智能体通信、任务规划与工具调用等方面进行了多样化探索，为智能体生态的快速演进提供了有力支撑。

AgentFlow：在线强化学习引领智能体系统新纪元 AgentFlow 在线强化学习智能体系统 Flow-GRPO 第7张

AgentFlow提出了一种新范式，由四个具备记忆能力的专门化智能体协同配合：

规划器负责分析任务并选择工具，执行器调用工具并整合结果，验证器基于累积记忆评估中间结果，生成器整合信息生成最终答案。

AgentFlow：在线强化学习引领智能体系统新纪元 AgentFlow 在线强化学习智能体系统 Flow-GRPO 第8张

对于每个新任务，规划器在智能体交互的“流”中根据环境变化及其他智能体的反馈实时进行on-policy优化，各模块在推理流中协同演化并不断调整决策策略。这些优化随后被整合到系统的记忆中，形成一个闭环的自适应推理过程，使智能体系统在复杂环境下实现鲁棒的工具调用与持续进化。

为了充分评估AgentFlow的泛化能力与高效性，研究团队在多个基准测试上进行了系统评测，涵盖知识检索、智能体任务、数学推理和科学推理四大类。

AgentFlow：在线强化学习引领智能体系统新纪元 AgentFlow 在线强化学习智能体系统 Flow-GRPO 第9张

以Qwen-2.5-7B-Instruct为基座模型的AgentFlow在各项基准上均超越现有领先方法：

本文由主机测评网于2026-05-07发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543320.html