当前位置:首页 > 科技资讯 > 正文

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁

超过十二万名高校应届生,正全力以赴争夺仅有一万七千个的就业机会。

仅有约七分之一的录取概率,人工智能被指阻塞了就业渠道。同时,白领阶层也遭受严重冲击。

作为美国第二大雇主,亚马逊于周二发出一份内部邮件,导致一万四千个岗位瞬间蒸发,然而更大幅度的裁员计划仍在酝酿中。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第1张

整个行业正经历着前所未有的震荡。近期,多家科技巨头相继公布裁员计划,被削减的岗位总数高达十七万。

这场「失业海啸」的背后,人工智能被视为主要推手。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第2张

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第3张

全球范围内观察到:Z世代毕业生面临出路狭窄,办公室白领纷纷被技术替代,唯有「水管工」一类技能型岗位相对稳定。

但这些担忧,究竟是过度焦虑,还是真实写照?

来自Scale AI和Center for AI Safety的最新研究,一语道破真相:

尽管人工智能表现聪明,但实用性仍不足。目前,AI自动化率还不到3%。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第4张

值得一提的是,论文参与者中包括Alexandr Wang本人,这项研究是其在Scale AI期间完成的。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第5张

论文地址:https://www.remotelabor.ai/paper.pdf

6000小时,14万美金真实工作

最新研究中,提出了一个全新基准——远程劳动指数(RLI),重点评估AI在真实世界中端到端的性能表现。

过去几年,顶尖实验室的AI在各种测试基准上「表现卓越」。

这一优异成绩让人们一度误以为,当前AI距离通用人工智能仅一步之遥。但现实情况如何?

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第6张

这些基准大多是短任务、规则明确的学术题目,与真实工作环境相差甚远。GPT-5在通往AGI终点的道路上,仅实现了58%的进展。

真正具备经济价值的远程工作,通常具有跨领域、长周期、高标准等特点。

远程劳动指数(RLI),正是为了填补这一空白而设计。

它收录了来自远程劳动力市场的真实项目,覆盖游戏开发、产品设计、建筑、数据分析、视频动画等多个领域。

下图左展示了前七大工作领域。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第7张

这些项目难度跨度大,有的成本高达一万美元,完成时间超过一百个小时。

RLI全部数据均来自真实自由职业者的历史订单。总计超过六千小时的真实工作量,总价值超过十四万美元。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第8张

以下是RLI数据的收集过程,经过严格的筛选和清洗。一开始,研究人员选取了六十四个领域。

经过初筛,他们确定了四十三个符合条件的领域,分两个阶段来获取项目:

1 从自由职业平台获取

2 从长尾项目获取

随后,研究团队招募了三百五十八名自由职业者,他们拥有经过认证的Upwork账户,并且是目标领域的专家。

平均而言,这些自由职业者在Upwork平台上已工作两千三百四十一小时,完成过八十九个项目,总收入达两万三千三百六十四美元。

为此,团队从这些自由职业者中收集了五百五十个初始项目,最终筛选出包含二百四十个项目的RLI数据集。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第9张

相较于先前的同类基准,RLI在复杂性和多样性上更贴近真实自由职业市场的工作形态。

如下图左显示,人类完成RLI项目平均耗时与Upwork平台真实数据分布高度吻合;

右图说明,既有基准主要集中在软件工程、网络调研写作类任务,而真实远程劳动力市场的工种远超这一范畴。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第10张

数据集建好后,接下来就是顶尖AI真枪实战了。不过,在此之前,该用什么指标衡量其性能?

主要包括以下四大指标:自动化率、Elo评分、项目收益、自动化通缩。

在评估流程中,针对每个RLI项目,研究团队都会对AI交付成果进行检验——

既要与人类黄金标准交付成果进行比对,也要根据项目简报中的要求核查缺陷,最终判定该AI成果在真实自由职业场景中是否会被采纳为合格工作产物。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第11张

那么,每个顶尖大模型的真实战绩如何?

你的饭碗,暂时保住了!

实验中,研究团队召集了全球六大顶尖大模型和智能体参战,分别进行了定量和定性分析。

自动化率3%,已是极限

在定量分析中,主要采用了「绝对指标」和「相对指标」进行评估。

相较于人类基准,评估的核心结论是——

当前AI智能体在执行RLI中具有经济价值的项目方面,能力十分有限。

所有受评估的模型中,绝对性能普遍不佳,其中最高的自动化率,Manus也仅为2.5%。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第12张

为了衡量不同模型间的相对性能,研究人员采用配对比较法来计算Elo评分。

结果发现,各模型间的相对性能正在稳步提升,且排名总体上反映出新一代的前沿模型比旧模型表现更好。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第13张

世界知识不够,无法校验错误

在定性分析中,团队主要探究了当前AI系统的局限性以及自动化率低的原因。

通过对约四百份评估进行分析后,AI交付成果被拒的原因主要归结为以下几类:

1. 技术与文件完整性问题:许多失败源于基础技术问题,比如生成了损坏或空文件,或交付的文件格式不正确、无法使用。

2. 交付成果不完整或存在缺陷:AI频繁提交不完整的作品,比如缺少关键组件、视频内容被截断或未提供源素材。

3. 质量问题:即便AI生成了完整的交付成果,其质量也往往很差,达不到专业标准。

4. 不一致性:当使用AI生成工具时,AI完成的交付成果在不同文件之间时常表现出不一致性。

如下表2所示,是各类问题在交付成果中出现的比例。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第14张

不过,在一小部分项目中,AI的交付成果可以媲美甚至超越人类的成果。

这类项目主要集中在创意领域,特别是音频、图像相关的任务,此外还包括写作和数据检索/网络爬虫。

此前,「AGI定义」一文中曾指出AI在世界知识、记忆力、视听能力等方面存在缺陷。

AI智能体所表现出的许多失败,恰恰都源于这些能力的不足。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第15张

比如,由于AI无法核验并修正自身工作中的错误,尤其是在建筑、游戏开发和网页开发这类需要复杂交互和视听效果验证的项目中。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第16张

与之相对,AI模型的成功案例大多也集中在当前其技能发展更为成熟的领域。

比如,Claude 4.5 Sonnet在简单web视觉化任务中,做得要比人类交付成果更好。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第17张

再比如,AI还可以利用图像生成工具,解决RLI中的部分营销项目。

AI就业冲击波:最新研究揭示自动化率仅3%,人类工作暂未受威胁 AI自动化  远程劳动指数 就业市场 人工智能研究 第18张

RLI最新研究向所有人揭示了一个事实:AI距离取代人类复杂劳动,还有很长的路要走。

参考资料:

https://x.com/danhendrycks/status/1983564538781082084