当前位置：首页 > 科技资讯 > 正文

AI打工实录：现实职场挑战暴露“满分”模型短板

主机测评网
科技资讯
2026-05-09
517

在万圣节前夜，硅谷用一场“AI能替人类打工”的幻想狠狠地上了一课。

Scale AI让GPT-5、Claude、Gemini等一众“学霸”模型去“打零工”。这次可不是做选择题或写论文，而是让它们独立登录自由职业平台接真实订单，客户付真钱，模型交真货。

这场测试被称为“远程劳动指数”，是全球首个专门衡量AI“能否真正干活”的基准。

实验结果像一场职场闹剧：每个模型都有忙前忙后的时候，但表现最好的那个，240个工单也只完成了6个，赚到1720美元，还不到人类自由职业者报酬均值的2%。

近一半的失败原因是质量太差、成品显得业余。

在“分数上天、交付落地”的AI时代，这是一次令人尴尬的对照实验。尽管大模型在标准测试中表现惊人，但将这种“智力”转化为现实世界中的“经济价值”的能力还非常初级。

它也提出了一个比“AI是否聪明”更现实的问题：当真正要为结果付钱时，人们到底愿不愿意雇用AI？目前来看，人机协作似乎是短期到中期的唯一路径。

01 大模型赚外快成功率仅2.5%

AI到底能不能自己帮我赚外快？

Scale AI的前CEO Alexandr Wang最近带头搞了场“AI打工实录”，给出了这样的答案：极少数且限制重重。

为了搞清楚这件事，Scale AI搞了个叫“远程劳动指数”（RLI）的新标准，直接把各大模型当成“打工人”扔进真实项目里接单。

评判标准很现实：客户肯不肯付钱，平台认不认为这活儿干得专业。

他们特意选了自由职业项目来测试，因为这类任务独立、完整、还带真实报酬，最能看出AI到底有没有“独自上班”的能力。

测试范围不包括需要持续沟通、团队合作或线下动手的活儿，主要覆盖写作、3D建模、视频动画、建筑设计、游戏开发等23类常见线上工作。

RLI的设计核心就俩字：真实。

所有测试项目都来自全球最大自由职业平台Upwork上的真实订单，一共240个，加起来相当于人类6000小时的工作量，总报酬高达14.4万美元。

AI打工实录：现实职场挑战暴露“满分”模型短板 AI打工职场挑战模型短板经济价值第1张

结果有点惨烈。所有参与测试的AI模型，对复杂项目的整体自动化率都低于3%。

表现最好的Manus，成功率也只有2.5%，也就是240个任务里只完成了6个。换算成报酬，它只赚到了1720美元，而人类完成所有这些任务可以赚到14.4万美元。

AI打工实录：现实职场挑战暴露“满分”模型短板 AI打工职场挑战模型短板经济价值第2张

研究团队发现，AI的失败不是随机的，主要集中在这四类情况：

①45.6%的任务“质量过低”，成品显业余，达不到专业标准；

②35.7%的任务“不完整或格式错误”，如视频被截断、文件缺失；

③17.6%的任务“技术与文件完整性问题”，如损坏、编码错误；

④14.8%的任务“严重的视觉或逻辑不一致”，例如多镜头视角对不上、文件间彼此矛盾。

02 “满分”模型变“掉链子同事”

AI正在考试中证明“聪明”，却在职场中暴露“不会干活”。

近两年，大模型在封闭题库中的分数飙升，GDP-eval、SWE-bench等评测接连被刷到满分。而另一边，企业的初级岗位招聘却在降温。AI的“考试成绩”与真实就业市场的表现首次出现了明显背离。

原因很简单：现有基准测的是“答题能力”，而企业要的是“交付成果”。

“我们自诩达到AGI里程碑，不过是基准测试作弊。”微软CEO Satya Nadella曾公开吐槽。

这正是典型的“高分低能”。模型选择题全对，写代码却漏了import；推理论证严密，做方案却缺了关键信息。更严重的是，为了“刷榜”，不少模型训练时已将测试集“腌”进参数里，分数越高，离现实越远。

免费服务器高防服务器

本文由主机测评网于2026-05-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260543912.html

AI打工实录：现实职场挑战暴露“满分”模型短板

01

大模型赚外快成功率仅2.5%

02

“满分”模型变“掉链子同事”

固态电池：潜力与挑战并存，理性期待未来

理想MEGA爆燃事件：冷却液腐蚀引发安全警钟

AI打工实录：现实职场挑战暴露“满分”模型短板

01

大模型赚外快成功率仅2.5%

02

“满分”模型变“掉链子同事”

固态电池：潜力与挑战并存，理性期待未来

理想MEGA爆燃事件：冷却液腐蚀引发安全警钟

相关文章