- Anthropic和OpenAI正通过模拟企业应用,将AI模型训练为“虚拟白领”员工。
- Anthropic计划在一年内投入10亿美元,建设AI训练所需的“健身房”。
- OpenAI预测,未来“整个经济体”将变成巨大的“强化学习机器”。
9月17日,AI领域的两大巨头Anthropic和OpenAI正致力于开发能够替代人类执行复杂工作的“AI同事”。其核心方法是使用模拟企业软件来训练AI模型,使其能像人类员工那样理解和操作真实的工作流程。
为加速这一进程,Anthropic计划在明年投入10亿美元建设大规模的AI训练“健身房”。OpenAI则认为,整个经济未来都可能变成巨大的“强化学习机器”,AI将通过与人类协作和反馈不断进化,从根本上重塑生产力与工作模式。
Anthropic与OpenAI正在做一件前所未有的事:让大语言模型真正走进“办公室”,学习当一名合格的“数字员工”。
这些AI模型正在接受高强度职业培训,学习操作各类专业办公软件,从Salesforce的客户管理系统、Zendesk的客服平台,到医疗领域的Cerner电子病历系统。最终目标是让AI能够独立处理白领日常面临的复杂工作任务。
与传统AI训练不同,Anthropic和OpenAI采用的是“模拟办公”沉浸式教学。研究人员不仅为AI搭建高度仿真的企业应用环境,还聘请各行业专家担任“职业导师”,手把手教授模型软件操作技巧。
训练成本高昂。Anthropic计划在未来一年内投入10亿美元,建设“强化学习环境”或“健身房”。OpenAI今年在数据相关领域的支出也将达到10亿美元,到2030年增至80亿美元。这些资金既用于搭建虚拟办公环境,也用于支付专家薪酬。
聘请人类专家的成本也在上升。Labelbox公司透露,目前教授AI操作软件的各领域专家中,20%时薪超过90美元,近10%时薪突破120美元。预计未来18个月,顶级专家的时薪将涨至150-250美元。
尽管投入巨大,但回报可能超乎想象。一旦成功,这种新训练方式不仅能帮助OpenAI和Anthropic突破传统训练技术的瓶颈,还可能为他们开辟全新的商业模式。
Anthropic首席执行官达里奥·阿莫代伊将这些AI产品称为“虚拟协作者”。它们被设计成能与人类并肩工作,熟练操作我们日常使用的各种应用程序。
然而,要实现这个目标并不简单。图灵公司给出了具体案例。该公司前沿数据项目负责人安舒尔·巴吉解释道,要教会AI完成一个销售任务,需要跨越多个系统:不仅要掌握Salesforce的客户筛选功能,还要会使用LinkedIn寻找潜在客户、用Calendly安排会议,并通过Gmail发送跟进邮件。
图:研究人员会将复杂任务拆分为多个步骤,然后验证AI模型是否按要求完成
为确保AI真正掌握这些技能,图灵公司设计了一套精细的验证流程:将每个任务拆解为多个关键步骤,并设立明确的检查标准。以销售任务为例,考核标准包括:AI是否按“最后联系时间”筛选了客户数据库?是否成功发送包含Calendly会议链接的邮件?是否将潜在客户状态更新为“重新接洽”?
虽然这项技术尚处于早期阶段,但各大AI实验室已经准备好投入重金。一位投资者透露,Anthropic目前仅将不到10%的后训练预算用于“强化学习环境”,但由于初期效果显著,该公司预计明年将大幅提高这方面的投入。
图灵公司CEO乔纳森·西达尔特近日透露,他们已建成超过1000个强化学习模拟环境,覆盖从Airbnb到Excel等各类应用场景。这些被称作“AI健身房”的虚拟空间,正成为训练AI模型的重要资产。每个模拟环境都配备100到500个定制任务示例,并包含完整的评估体系。
这个新兴领域正吸引大量玩家入场。Scale、Surge、Mercor和Invisible Technologies等竞争对手纷纷推出类似服务。一批专注服务顶级AI实验室的初创公司也悄然涌现,强化学习环境正在成为一个新兴细分赛道。
“OpenAI和Anthropic改进模型的方法,其实是在模仿人类的学习过程。”Surge公司创始人兼CEO埃德温·陈说,“强化学习环境就像是让AI生活在真实世界里。”
除了搭建模拟环境,AI开发商们也在持续用精心筛选的问答来训练模型。这些问答往往难度极高,比如顶级的编程竞赛题或博士水平的生物学问题。这些问答随后会被用于强化学习。
图:改进人工智能模型的方法,可以比作人类学习新概念的不同途径
随着AI模型变得越来越聪明,数据标注公司也开始“招兵买马”,从最初聘请硕博在读生,升级到聘请在特定领域拥有多年经验的职场精英。
例如,图灵公司就曾聘请过美国宇航局(NASA)的数据科学家、参与能源部项目的化学家、放射科的住院医师等。巴吉举了一个例子:假设一个AI开发者想教会模型理解税率变动对财务模型的影响,图灵公司会先请一位金融专家(合同工)解决这个问题。
然后,AI开发者会让模型也去尝试完成这个任务几十次。他们会筛选出那些模型计算结果与人类专家一致的案例,再用这些正确的案例来集中训练模型。通过这种方式,模型开发者能快速、低成本地生成大量正确的训练样本。
像OpenAI这样的头部AI开发商,正试图从各行各业收集类似的案例。一位OpenAI的高管在今年早些时候曾私下表示,他们期望“整个经济体”最终能变成一台巨大的“强化学习机器”。这意味着,AI未来可能会通过记录各领域专业人士在设备上的日常工作来进行学习和训练。
本文由主机测评网于2026-04-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441444.html