在万圣节前夕,硅谷对“AI能替代人类打工”的幻想进行了一次现实检验,将其拉回地面并给予沉重一击。
Scale AI组织了一场实验,让GPT-5、Claude、Gemini等一批“学霸”模型尝试“打零工”。这不是做选择题或写论文,而是独立登录自由职业平台接收真实订单。客户支付真实报酬,模型交付实际作品。
这场测试被称为“远程劳动指数”(RLI),它是全球首个专门评估AI“能否真正干活”的基准标准。
实验结果宛如一场职场闹剧:每个模型都忙碌不停,但表现最佳的那个,在240个工单中仅完成6个,赚取1720美元,还不到人类自由职业者平均报酬的2%。
近一半的失败原因在于质量太低、成品显得业余。
在“分数飙升、交付落地”的AI时代,这是一次令人尴尬的对照实验。尽管大模型在标准测试中表现卓越,但将这种“智力”转化为现实世界中“经济价值”的能力仍非常初级。
它也引发了一个比“AI是否聪明”更现实的问题:当真正要为结果付钱时,人们到底愿不愿意雇用AI?目前来看,人机协作仍是短期到中期的唯一路径。
AI到底能不能自主赚取外快?
Scale AI的前CEO Alexandr Wang近期主导了一场“AI打工实录”,给出了这样的答案:极少数情况可以,但限制重重。
为了探究这一问题,Scale AI推出了名为“远程劳动指数”(RLI)的新标准,直接将各大模型当作“打工人”投入真实项目中接单。
评判标准非常现实:客户是否愿意付钱,平台是否认为工作专业。
他们特意选择自由职业项目进行测试,因为这类任务独立、完整、且带有真实报酬,最能体现AI是否具备“独自上班”的能力。
测试范围不包括需要持续沟通、团队合作或线下动手的工作,主要覆盖写作、3D建模、视频动画、建筑设计、游戏开发等23类常见线上任务。
RLI的设计核心就两个字:真实。
所有测试项目都源自全球最大自由职业平台Upwork上的真实订单,共计240个,相当于人类6000小时的工作量,总报酬高达14.4万美元。
每个任务都配备了完整的需求说明、相关素材和人类交付样例。例如,在数据报告任务中,要求AI根据《世界幸福报告》的Excel数据,制作出带有世界地图和分数拆分的交互式报告。
▲交付要求示例
整个流程高度仿真:从理解需求、下载文件、多轮修改到最终提交,任何一个环节出错都算任务失败。
结果相当惨淡。所有参与测试的AI模型,对复杂项目的整体自动化率都低于3%。
表现最好的Manus,成功率也只有2.5%,即在240个任务中仅完成6个。换算成报酬,它只赚到1720美元,而人类完成所有任务可赚取14.4万美元。
其他“学霸”模型表现更差:Grok 4和Claude Sonnet 4.5稍逊,均为2.1%;GPT-5为1.7%;ChatGPT Agent为1.3%;而Gemini 2.5 Pro垫底,仅0.8%。
▲AI的任务通过率全部不超过3%
目前来看,指望AI完全自主工作,效率实在偏低。研究团队发现,AI的失败并非随机,主要集中在这四类情况,且一个任务可能踩中多个坑:
①45.6%的任务“质量过低”,成品显得业余,达不到专业标准;
②35.7%的任务“不完整或格式错误”,如视频被截断、文件缺失;
③17.6%的任务“技术与文件完整性问题”,如文件损坏、编码错误;
④14.8%的任务“严重的视觉或逻辑不一致”,例如多镜头视角对不上、文件间彼此矛盾。
典型案例:在一个珠宝设计项目中,AI的任务是“修改提供的戒指图像,改变钻石切工”。结果它完全忽略客户提供的原图,自行生成了两张全新的AI图,图片质量业余、未按需求执行、两张新图还对不上,一口气触发了三种失败模式。
▲AI被“退货”的典型案例
失败原因指向更深的系统性问题。
“质量低下”表明AI根本不懂什么是“专业标准”;“不完整/格式错误”则暴露了它在处理多步骤、多工具工作流时的脆弱性。
不过AI也非一无是处,它在某些特定类型任务上仍有天赋,主要集中在两类:一是创意类任务,比如制作音效、设计Logo;二是基础内容类任务,比如部分数据整理或写作。
简而言之,AI擅长“从零开始创作”,生成能力不错。可一旦任务需要串联多个工具、执行多步骤操作、保持文件间一致性,或在他人成果上进行二次编辑,它基本会手忙脚乱,集体失败。
虽然AI出活速度快,但交付质量难以达标。人类完成一个项目平均需28.9小时,而AI投入相近的“算力时间”后,大部分成果仍被判定为“不合格”。
这实际上揭示了一个趋势:工作正在被“拆解”,而非直接被“替代”。
在RLI中,任务被分为L1到L5五个难度等级。像资料整理、基础文案这类L1-L2任务,AI通过率可达25%-30%;而涉及跨工具协作、创意策划的L4-L5任务,通过率却低于5%。有趣的是,L1-L2任务正是许多人类初级岗位的日常。
依据“智能体摩尔定律”,有人预测到明年底,最强的AI智能体有望完成一半的远程工作任务。
研究团队也强调,AI的各项指标还在快速进步,RLI基准将持续追踪。他们计划不断更新测试任务库,并加入多模态、长记忆、工具调用等新维度,目标明确:将“模型能力”真正转化为“经济价值”来衡量。
AI在考试中证明“聪明”,却在职场中暴露“不会干活”。
近两年,大模型在封闭题库中的分数飙升,GDP-eval、SWE-bench等评测接连被刷到满分。而另一边,企业的初级岗位招聘却在降温。AI的“考试成绩”与真实就业市场的表现,首次出现明显背离。
原因很简单:现有基准测的是“答题能力”,而企业要的是“交付成果”。
微软CEO Satya Nadella曾公开吐槽:“我们自诩达到AGI里程碑,不过是基准测试作弊。”
这正是典型的“高分低能”。模型选择题全对,写代码却漏了import;推理论证严密,做方案却缺了关键信息。更严重的是,为了“刷榜”,不少模型训练时已将测试集“腌”进参数里,分数越高,离现实越远。
AI领域迫切需要一种能衡量“真实工作能力”的新标准。
Scale AI推出的RLI正是为此而生。它不考一题一答的知识点,而是考“能否完成一整个工作流”——就像现实职场那样,任务有上下文、要协作、要产出可交付成果。
那么,RLI和传统基准有何不同?
MMLU、MT-Bench和ARC Challenge都是当前评估大模型时“出场率”最高的主流基准之一,几乎所有新模型发布都会展示这三项分数。不过,它们各自存在明显短板:
MMLU覆盖57学科,更像闭卷知识竞赛;
MT-Bench用两轮对话评分,只能反映“聊天体感”,无法衡量跨工具、跨步骤的复杂协作;
ARC Challenge聚焦抽象常识推理,与现实场景脱节。
相比之下,RLI用真实付费订单作为测试题目。模型不仅要理解任务、跨工具操作,还要交出客户愿意付钱的成果。这样的评测几乎无法“刷分”,它考验的是全流程适应力。
现实中,甲方突然要求改语气、换配图风格;客户上传的参考资料缺页、压缩包损坏;或任务中途新增“请在Notion里同步进度并生成演示稿”。这些人类面对的模糊又多变的现实,是模型能力测试中不曾出现的。
正如AI安全研究员Dan Hendrycks所说:“没有什么比现实更复杂。AI的进步,必须以真实经济价值为衡量标准。”
那AI到底能不能独立上岗?
RLI实验结果显然表明“AI绝对自动化率几乎为零”,AI即将全面替代人类工作”的担忧暂时缺乏数据支撑。
短期内,市场还不会被“AI劳动力”淹没,但任务颗粒度变细、价格分层已在所难免。哈佛分析了500万家美国企业的招聘数据后得出,AI引入后,初级岗位招聘量平均下降7.7%,尤其集中在批发零售、行政支持等流程标准化行业。
未来的初级岗位JD可能会写成这样:“能使用AI完成30%的日常杂务,并具备确保交付的能力。”
AI的崛起正在重塑工作结构。纯执行型技能正在加速贬值,定义问题、管理流程、整合资源的能力,反而成了新的核心竞争力。
AI在考试中证明了“聪明”,而真正能在现实中“干活”的,依然是那些懂得如何让AI融入团队的人。
本文由主机测评网于2026-01-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118867.html