加州大学伯克利分校(UC Berkeley)最新发布了一项重要研究:《Measuring Agents in Production》。
(论文链接:点击这里)
本研究基于全球真实请求:306名从业者的深度调研,20个企业级部署案例,覆盖26个行业。
这是AI Agent领域迄今为止规模最大的一次实证研究。
研究揭示三大核心信息:
报告信息丰富,让我们一一解析。
先看一个数字:73%的从业者表示,部署Agent的首要目的是“提高生产力”。
其他动机也非常务实:63.6%是为了减少人工工时,50%是为了自动化常规劳动。
相对而言,那些难以量化的质性收益,如“风险规避”(12.1%)和“加速故障响应”(18.2%),排名则较后。
也就是说,Agent的落地实施,优先于那些能带来直接、可量化回报的场景,那些价值难以估量的质性改进,目前还需等待。
从应用场景看,Agent早已超越写代码或聊天机器人,深入到更严肃的商业流程中。
其中,金融与银行业占比最高(39.1%),其次是科技(24.6%)和企业服务(23.2%)。
此外,Agent还在许多意想不到的地方落地:
- 保险理赔流程自动化:代理人处理从保单查询到风险识别的序列排序流程。
- 生物医学工作流自动化:在科学发现领域,Agent用于自动化执行复杂的实验和数据分析流程。
- 企业内部运营支持:涵盖人力资源信息搜索、站点故障事件诊断等。
这些跨行业的成功案例证明,AI Agent已具备解决真实世界复杂问题的能力,并正在创造实际的商业价值。
在实际业务场景中,Agent更像人类的“超级实习生”。
92.5%的Agent直接服务于人类用户,其中52.2%服务于企业内部员工。
为何主要是内部员工使用?因为在组织内部,错误后果可控且有人监督。只有7.5%的Agent服务于其他软件系统,Agent间的全自动交互还很遥远。
与很多想象不同,Agent的响应速度并非客户首选。在生产环境中,66%的系统允许分钟级甚至更长的响应时间。
原因在于:相比于人类完成任务需要的数小时或数天,Agent花几分钟仍是巨大的效率提升。这意味着开发团队可将重心放在提升输出质量和可靠性上,而非追求极限低延迟。
与学术界对复杂自主Agent的探索相比,生产级AI Agent的构建哲学是“大道至简”。
从业者优先选择简单、可控、可维护的技术路径,以最大程度提升系统可靠性。这种务实的工程选择贯穿于模型选型、技术实现、核心架构和框架使用的各个方面。
在模型选择上,闭源是主流。
在20个深度案例中,85%(17个)使用了闭源模型。Anthropic的Claude系列和OpenAI的GPT系列是首选。
选择闭源的核心逻辑是效率。对于辅助专家(如医生、高级工程师)的Agent来说,推理成本相比人力成本几乎可以忽略不计,因此团队倾向于选择最强的模型。
开源模型更多被认为是特定场景下的补充。只有在满足严格约束条件时,团队才会选择开源模型。一般来说有两种情况:
- 成本效益:对于需要大规模、高推理的场景,自托管开源模型的成本优势凸显。
- 数据隐私:受法规或企业政策限制,当敏感数据无法突破外接环境时,开源模型成为唯一选择。
与模型选择一样,从业者在技术路径上也倾向于更简单、迭代更快的方法:拒绝微调,专注Prompt。
学术界热衷的微调(Fine-tuning)和强化学习(RL)在实际应用场景中极少使用。其中70%的案例直接使用现成模型,完全不进行权重微调。
大家的精力都花在哪了?花在写Prompt上。
78%的系统采用全手动或手动+AI辅助的方式构建Prompt生产环境。Prompt可能非常长,12%的Prompt超过10,000个Token。
这也说明,从业者更相信自己手写的规则,而非自动优化工具(如DSPy)。
本文由主机测评网于2026-05-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260546017.html