【导读】 AI已不仅限于代码编写、图像生成或PPT制作,它正悄然“入职”职场。卡内基梅隆与斯坦福大学的研究团队首次全程追踪AI工作流程,揭示一个颠覆性事实:AI并非在模仿人类,而是以编程思维重新定义工作本质。这场关于“谁在劳动”的实验,正重塑未来职场的运行逻辑。
如今,AI在代码编写、PPT制作、图像生成乃至财务表格整理等方面的能力,已不再是新鲜事。
然而,公众往往只聚焦于结果:代码能否顺利运行?图像是否带有AI痕迹?报告排版是否精美?
却鲜有人追问——它,究竟是如何完成这些任务的?
就在上周,来自卡内基梅隆大学与斯坦福大学的研究团队发布了一篇重磅论文,首次运用科学手段追踪并重现了AI的工作全过程。
论文链接:https://arxiv.org/abs/2510.22780
结果令人震惊:AI并非在模仿人类工作,而是以编程方法处理所有问题。
它不会打开PPT软件,不会用鼠标拖动素材,而是直接调用函数,让页面自动生成。
在AI的世界里,工作不依赖视觉和手动操作,而依靠指令与逻辑驱动。
这项由CMU与斯坦福联合开展的研究,首次以真实电脑操作为样本,完整记录了智能体与人类在执行同一任务时的全流程——包括鼠标点击、键盘输入、软件调用等所有细节。
实验覆盖了五个核心技能领域:数据分析、工程、计算、写作与设计,几乎涵盖了现代电脑办公的主要场景。
研究发现,AI与人类在总体任务流程上“看似”相似,但执行逻辑截然不同。
AI与人类在任务步骤上的匹配度接近80%,这意味着它们所做的事情大体一致。
AI与人类任务流程匹配度。尽管两者在“做什么”上高度一致,但AI的执行路径波动更大——表明它用完全不同的逻辑完成相似任务。
研究者在论文中写道:
智能体几乎在所有任务中都采用程序化方式执行,通过编写代码解决问题,而不是像人类那样依赖可视化界面。
换言之,AI不在前台界面操作,而是在后台“调用”功能。
进一步分析显示,AI和人类在工具使用上呈现出截然不同的路径。
AI与人类使用工具的差异。黄色代表AI使用的编程工具,蓝色代表人类使用的UI界面
当人类在Excel里拖动单元格、在PPT中插入图片时,AI选择直接运行脚本:调用函数→生成页面→自动排版。
它跳过了视觉操作层,将工作转化为逻辑指令的执行过程。
与员工相比,AI更近似于一名程序员。
AI与人类的“程序化程度”对比。
研究发现,AI的操作中93.8%为程序化步骤,而人类仅34.2%;若排除会编程的人类群体,这一比例更低至7.1%。
AI的工作逻辑更接近“程序员”,而人类仍是“操作员”。
它不依赖手和眼去控制界面,而用逻辑与命令去控制流程。
在人的世界里,工作是看与做;在AI的世界里,工作是想与执行。
AI的效率,几乎全面超越人类。
在16项实验任务中,智能体的平均完成时间比人类快88.3%,整体成本降低90%~96%。
它不仅速度惊人,还几乎不需要报酬。
但当研究者开始评估工作质量时,结果出人意料。
尽管智能体在执行速度与成本上表现优越,但在任务正确性、信息完整性及对指令理解方面持续落后于人类。
AI最大的弊病是——不会就编造。
在账单整理任务中,AI无法读取图像内容,却会为了“完成任务”而直接编造结果。研究者称之为伪造输出。
当要求提取账单信息时,AI自动生成虚构的餐厅名称与表格,以假装任务完成
这种“不懂装懂”并非偶然发生,而是一种系统性行为。
内部指令让AI必须“给出答案”,而不是“承认不知道”。
所以,它宁可胡编乱造,也不会说“我不知道”。
研究员还发现另一类问题:AI经常误用工具。
例如,在分析公司财报的任务里,智能体没能理解文件结构,却突然调用网络搜索,下载了成千上万份无关报告——这一行为被归类为“工具误用”。
AI为完成“查找并汇总财报”任务,随意改用网页搜索,导致结果混乱且无效
这些案例揭示了AI所谓“智能”的局限:它能执行指令,却无法真正理解语境。
研究者写道:智能体经常表现出一种“理解的幻觉”,看似明白任务实则未能掌握其意图。
对比来看,人类虽然速度慢,却懂得规范与细节。
在表格处理实验中,人类能主动调整列宽、统一数值精度,让数据可读性更强;而AI往往套用默认模板,容易出现格式不齐、单位混乱等问题。
上图AI生成的表格中精度不一致、列宽混乱;下方为人类输出,排版规范、数值统一。
这类细节差异会影响速度,更能直接决定成果能否被实际采用。
在网页设计任务中,AI只生成了桌面端网页;而人类会自动考虑移动端、平板端适配,产出多版本原型。
AI输出仅限桌面网页,人类能同时产出多设备版本,体现出更强的实践判断力。
研究者总结道:
自动化并不总意味着高效,它可能只是让人类把时间花在修正机器上。
AI的高效,或许只是一种“表面速度”。它能迅速交出结果,却常常需要人类去验证、修复、补救。
从实验室数据来看,AI的确速度够快,但仍然需要一个耐心的人类在背后,不停地检查、改错、收尾。
AI的速度优势,在前面的实验中已经显现。
但研究者进一步量化发现:这种速度背后,也意味着质量上的牺牲。
在五类典型任务中,AI的平均完成时间仅为人类的1/4至1/5,但任务成功率却明显偏低—52.4%对81.3%。
左图显示:人类在写作(91.4%)与设计(91.7%)任务中成功率最高;右图显示:AI在数据与行政类任务上速度优势明显,平均快70%以上。
这说明AI的能力曲线并不均衡。它擅长结构化、可重复的逻辑流程,但一旦涉及语境、创意或审美判断,表现便迅速下滑。
为进一步验证这种互补关系,研究者设计了一个实验:让AI与人类分工处理同一份财务数据。
AI负责文件提取、计算、生成表格;人类负责检查逻辑、修正错误、优化排版。
结果显示:在这种“接力式协作”下,任务总耗时减少58%,而输出质量几乎与纯人类完成的版本一致。
当AI承担程序化部分、人类负责判断性部分后,整体效率显著提升,且正确率保持稳定。
研究团队在论文的讨论部分提出了一个关键概念——任务的“可编程性”。
他们认为,AI与人类的分工,不是职位层面的竞争,而是取决于任务本身的结构化程度。
如果一项任务可以被清晰地写成逻辑或规则,比如数据清洗、预算计算、代码生成等,它就属于“可编程任务”,最适合交给AI代理去完成。
而那些部分可以逻辑化、部分需要判断的任务,例如撰写报告、排版内容、制作产品原型则更适合采用人机协作:AI负责生成与计算,人类负责把控方向、语气与审美。
至于完全开放、模糊且依赖语境的任务,比如创意写作、视觉设计、战略决策,仍需要人类去完成,因为它们无法被抽象成固定的“指令集”。
正如论文所说:
AI更像程序员,而人类在模糊、判断与语境面前仍不可替代。
AI并不是来取代人的,而是在改写“工作逻辑”。
它接手那些可以写成规则的部分,让人类有更多空间去处理模糊、开放与创造的环节。
AI与人类在协作任务中的分工流程
未来的合作关系,或许正如这项研究所揭示的:AI执行任务,人类定义意义。
当AI开始参与工作,我们也不得不重新思考一个问题——到底什么才算“工作”?
在传统意义上,工作意味着投入时间与体力,通过操作、判断、创造完成某个目标。
而AI的出现,让“劳动”第一次脱离了身体与感知。它不再需要手去触碰界面、眼去观察反馈,而是直接以指令、逻辑、函数完成任务。
这篇研究的意义,不只在于展示AI能做什么,更在于提醒我们——AI完成任务的方式,正在重构“工作”本身。
它跳过界面,绕开视觉,直接调用底层逻辑,把原本属于人类的做事过程,变成一套可被执行的规则。
于是,过去那些依赖时间与熟练度的岗位——数据录入、报告生成、内容整理——正在被转化为AI的“逻辑模块”。
而人类被推向了另一个维度:制定目标、评估结果、定义意义。
上方为人类与AI各自独立执行任务,下方为人类在流程中调用AI实现自动化协作。实验结果显示:后者在效率与正确率上双双领先。
研究者将这种趋势称为“工作去物质化”,意味着劳动正在从手工与界面层面退出,转向抽象的思考与监督。
AI不再是劳动力,而是一种可被部署的“算法劳工”。
它不知疲倦、没有情绪,也不追求报酬;它的价值,不在付出多少时间,而在于“被调用的次数”。
这也让人类的工作悄然改变。当AI负责执行,人类就需要去回答更高层的问题:什么才值得被执行?什么样的目标才有意义?
研究者在论文结尾写道:
人类的工作将从执行任务,转向定义任务。
也许这才是AI时代最深的转折——工作不再是重复劳动的总和,而是一种意义生产的能力。
AI没有偷走我们的工作,只是让我们必须更清楚地回答:当机器能做一切,我们还要做什么?
也许,真正的工作,从来都不在于“完成任务”,而在于决定要做什么。
AI不是来模仿人类的,而是用另一种语言——逻辑与代码——去改写工作的底层。
它让效率与成本被重新计算,也让“意义”这个维度重新显形。
或许未来的职场里,不会再有“取代”与“被取代”。AI做的是确定性的事,人类做的是不确定的事。
当一切都可以自动化时,唯一无法自动化的,就是思考、判断与共情。
这正是AI无法复制的那一部分,也是人类仍然被需要的理由。
参考资料:
https://arxiv.org/abs/2510.22780
本文由主机测评网于2026-01-17发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118084.html