美国METR研究所完成了一项针对AI编程工具实际影响的实验。研究揭示,资深开源开发者在使用AI工具后,完成任务的时间平均增加了19%。
这一发现与开发者们的普遍预期截然相反。他们原本相信,AI会显著提升工作效率。
在任务开始前,开发者们预测AI能让自己提速24%。然而,实验数据却显示:AI让他们的效率“看似提升,实则下降”。
研究团队通过随机对照实验(RCT),在真实环境中测试了AI工具的效果。这种实验方法被公认为衡量因果关系的最严格手段。
实验设计严谨:在分配任务前明确条件,通过屏幕录制监控执行过程,并利用开发者和专家的预测衡量预期与实际的差距。
实验追踪了16名高级开发者,他们在各自的开源项目中完成了246个实际任务,涵盖复杂模块的开发与修复,工作负载真实且具体。
每个任务被随机分配给两组:一组使用AI工具,另一组则不使用。
AI组主要使用的是Cursor Pro,集成了Claude 3.5和Claude 3.7 Sonnet等主流大模型。
开发者在整个过程中录屏,并记录完成每个任务的时间。为了排除任务难度的影响,研究人员采用了统计方法,引入开发者对任务时间的预估值作为参考。
简而言之,他们不仅测量“花了多长时间”,还测量“比预期多了多少”。
最终结果显示:AI用户完成任务的平均用时比非AI用户长19%。
讽刺的是,即便在任务完成后,那些使用过AI的开发者仍然坚信自己“节省了20%的时间”。
即便现实已经反转,他们依然觉得自己在加速。
研究者指出,这种“快感错觉”可能源于AI协助下的新型流程分布。研究结果表明,AI并没有真正提升核心产出环节的效率,只是重新分配了注意力和劳动方式。
具体来说,当AI工具启用后,开发者在“主动编码”上的时间反而减少了。
他们花了更多时间在提示设计、AI产出审查、等待响应、闲置以及理解生成内容上。
研究显示,开发者不是在写代码,而是在“与AI沟通如何写代码”。这种交互过程看似“充实”,但最终产出并不一定更快。
图注:在使用AI的情况下,开发者减少了编码和查找信息的时间,更多时间用于与AI交互和等待。
对于新项目或快速原型开发,AI确实能提供帮助。但在成熟的大型项目中,特别是开源社区中常见的、结构复杂、规则隐含、质量要求高的工程时,AI反而成为新的负担。
它需要大量的补充说明、更频繁的审查,甚至还会引发语义误解。
开发者不再是在解决问题,而是在解释问题、矫正AI、并试图相信AI有帮助。
METR的研究不仅揭示了AI工具在实际工作中的真实效率,还对目前主流AI评估体系提出了质疑。
他们指出,当前业界广泛采用的基准测试(如SWE-Bench和RE-Bench)存在严重偏差。这些测试通常是人工设置的小型题目,情境孤立,完全不反映真实项目的复杂性。
开发者只需解决一小段代码问题,无需考虑上下文、团队协作或历史遗留负担。
这种测试环境高度理想化,与开源项目、企业代码库或大型框架开发的日常工作完全不同。
因此,我们得到了一个错误的结论:AI表现得非常强大。
而METR的随机对照实验则是在现实中运行、在项目中嵌入、在流程中测量。研究人员将AI直接部署到开发者的真实任务中,不干预流程,只记录结果。
这是对“AI助力”的最直接检验。
此外,这种实验还能揭示“感知偏差”:即人们在使用AI之后,对效果的主观判断如何偏离客观现实。这才是真正有价值的测试方法。
因此,如果AI让人“觉得自己更快”,却“实际上更慢”,那么其价值评估将被全面高估。
企业、教育机构、平台服务商乃至政策制定者都可能被误导。
研究还暗示,AI工具的价值可能不是“提高效率”,而是“改造流程”。
研究详情本文由主机测评网于2026-04-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260436861.html