在万圣节前夜,硅谷用一场“AI能替人类打工”的幻想狠狠地上了一课。
Scale AI让GPT-5、Claude、Gemini等一众“学霸”模型去“打零工”。这次可不是做选择题或写论文,而是让它们独立登录自由职业平台接真实订单,客户付真钱,模型交真货。
这场测试被称为“远程劳动指数”,是全球首个专门衡量AI“能否真正干活”的基准。
实验结果像一场职场闹剧:每个模型都有忙前忙后的时候,但表现最好的那个,240个工单也只完成了6个,赚到1720美元,还不到人类自由职业者报酬均值的2%。
近一半的失败原因是质量太差、成品显得业余。
在“分数上天、交付落地”的AI时代,这是一次令人尴尬的对照实验。尽管大模型在标准测试中表现惊人,但将这种“智力”转化为现实世界中的“经济价值”的能力还非常初级。
它也提出了一个比“AI是否聪明”更现实的问题:当真正要为结果付钱时,人们到底愿不愿意雇用AI?目前来看,人机协作似乎是短期到中期的唯一路径。
AI到底能不能自己帮我赚外快?
Scale AI的前CEO Alexandr Wang最近带头搞了场“AI打工实录”,给出了这样的答案:极少数且限制重重。
为了搞清楚这件事,Scale AI搞了个叫“远程劳动指数”(RLI)的新标准,直接把各大模型当成“打工人”扔进真实项目里接单。
评判标准很现实:客户肯不肯付钱,平台认不认为这活儿干得专业。
他们特意选了自由职业项目来测试,因为这类任务独立、完整、还带真实报酬,最能看出AI到底有没有“独自上班”的能力。
测试范围不包括需要持续沟通、团队合作或线下动手的活儿,主要覆盖写作、3D建模、视频动画、建筑设计、游戏开发等23类常见线上工作。
RLI的设计核心就俩字:真实。
所有测试项目都来自全球最大自由职业平台Upwork上的真实订单,一共240个,加起来相当于人类6000小时的工作量,总报酬高达14.4万美元。
结果有点惨烈。所有参与测试的AI模型,对复杂项目的整体自动化率都低于3%。
表现最好的Manus,成功率也只有2.5%,也就是240个任务里只完成了6个。换算成报酬,它只赚到了1720美元,而人类完成所有这些任务可以赚到14.4万美元。
研究团队发现,AI的失败不是随机的,主要集中在这四类情况:
①45.6%的任务“质量过低”,成品显业余,达不到专业标准;
②35.7%的任务“不完整或格式错误”,如视频被截断、文件缺失;
③17.6%的任务“技术与文件完整性问题”,如损坏、编码错误;
④14.8%的任务“严重的视觉或逻辑不一致”,例如多镜头视角对不上、文件间彼此矛盾。
AI正在考试中证明“聪明”,却在职场中暴露“不会干活”。
近两年,大模型在封闭题库中的分数飙升,GDP-eval、SWE-bench等评测接连被刷到满分。而另一边,企业的初级岗位招聘却在降温。AI的“考试成绩”与真实就业市场的表现首次出现了明显背离。
原因很简单:现有基准测的是“答题能力”,而企业要的是“交付成果”。
“我们自诩达到AGI里程碑,不过是基准测试作弊。”微软CEO Satya Nadella曾公开吐槽。
这正是典型的“高分低能”。模型选择题全对,写代码却漏了import;推理论证严密,做方案却缺了关键信息。更严重的是,为了“刷榜”,不少模型训练时已将测试集“腌”进参数里,分数越高,离现实越远。
本文由主机测评网于2026-05-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543912.html