2025年,被资本市场视作「Agent元年」,这一年,Manus、Lovart、Fellou等多Agent应用备受瞩目。它们凭借高度自动化和强大的泛化能力,深深吸引了行业眼球。肖弘提出的“More Intelligence, Less Structure”理念更是深入人心。
这些明星公司多采用多Agent联合架构,尽管它们能高效完成任务,但往往需要多次工具调用,导致较长的等待时间。然而,UC Berkeley发布的《Measuring Agents in Production》报告揭示了一个截然不同的平行宇宙。
Berkeley团队调研了306位一线从业者和20个深度案例,排除了处于Demo阶段的项目,只关注已部署上线且产生真实价值的系统。结果显示,生产环境的真实数据比实验室数据保守得多。
68%的生产级Agent执行步骤被严格限制在10步以内,仅16.7%允许数十步,无限制的仅占6.7%。
为了简化工具使用并降低风险,企业通常会在Agent和真实环境间构建抽象层(Wrapper APIs),一步替代三步。
80%的访谈案例使用了「结构化控制流」,这意味着AI在既定框架内工作。
论文数据显示,12%的已部署系统Prompt长度超过10,000 Tokens。所有Agent都在冗长的System Prompt中运行。
目前的成功案例可视为「拥有阅读理解能力的实习生」,被塞进严格的SOP流程中。相比于SaaS,它能理解模糊意图,但灵活性有限。
为何现实如此骨感?
DeepMind的两篇论文为Berkeley报告中的惨状提供了病理剖析。它们直接证伪了Agent社区的两个核心假设。
实验和数据证明,模型自我涌现的魔法时代尚未到来,我们仍停留在依赖硬编码和强管控的工程时代。
DeepMind的第一篇论文通过180个受控实验配置打破了「多Agent必然更强」的神话。
架构师们曾幻想:既然一个模型不够聪明,就组建一个虚拟团队。但DeepMind的论文《Towards a Science of Scaling Agent Systems》证明这仅是幻想。
实验测试了五种主流Agent架构,包括单Agent系统、独立多Agent架构等。使用OpenAI、Google、Anthropic的顶尖产品,通过四个基准测试不同组合的效果。
发现:
在金融分析任务中,多智能体带来整体提升,尤其是中心式Agent架构。这说明目前最强的LLM尚未涌现出自组织分工能力。
增加工具调用预算并不会带来性能线性增长。DeepMind的论文《Budget-Aware Tool-Use Enables Effective Agent Scaling》聚焦于此。
研究发现,增加预算并不会带来性能提升。例如标准ReAct Agent在预算翻倍时准确率仅提升0.2个百分点。
这说明Agent无法有效管理自己的预算和路径。
DeepMind提出了BATS(Budget-Aware Test-time Scaling),通过预算感知规划和验证模块提高性能。
DeepMind的公式指明了出路:通过技术手段给上下文减负。
只有当这些减负能力到位时,多Agent系统才能发挥真正的潜力。
本文由主机测评网于2026-06-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260646895.html