OpenAI近期发布了一项新研究,出乎意料地对Claude模型给予了高度评价。
他们提出了一个名为GDPval的新基准,用于评估AI模型在现实世界中具有经济价值的任务上的性能。
具体而言,GDPval覆盖了对美国GDP贡献最大的9个行业中的44种职业,这些职业年收入合计高达3万亿美元。任务基于平均拥有14年经验的行业专家的典型工作设计而成。
专业评审人员将主流模型的输出与人类专家的成果进行了比较。
最终测试结果显示,Claude Opus 4.1成为表现最佳的模型,47.6%的产出被评定为媲美人类专家水平。
GPT-5以38.8%的成绩位居第二,与Claude仍有一定差距;GPT-4o仅12.4%的产出获胜或与人类持平。
未能成为最优,OpenAI也进行了补充说明:不同模型各有优势,Claude Opus 4.1主要在美学方面突出,而GPT-5在准确性上更胜一筹。
OpenAI还指出,同样值得关注的是模型的进步速度,其前沿模型在短短一年内,胜率几乎翻倍。
最后OpenAI开源了包含220项任务的优质子集,并提供公开的自动评分服务。
网友看后纷纷表示,这项研究非常有趣:
OpenAI各代模型的性能呈线性增长,以及对竞争对手的认可值得感谢。
还有网友认为,这也可能是奥特曼精心策划的宣传策略,通过强调AI对GDP增长的贡献来筹集资金。
下面详细探讨这项测试。
OpenAI指出,GDPval相比现有AI评估的优势在于:
其任务构建流程,首先从确定核心行业与职业开始。
OpenAI先筛选出对美国GDP贡献超5%的9个行业(依据2024年第二季度数据),再在每个行业内挑选5个工资总额贡献最大且以数字任务为主的职业。
判断职业是否“以数字任务为主”时,参考ONET中该职业的所有任务,借助GPT-4o对任务按“数字/非数字”分类,结合ONET中任务的相关性、重要性和频率得分加权计算,若60%以上任务为数字任务,则纳入该职业。
最终OpenAI筛选出了44个职业,这些职业合计年创收3万亿美元。
接着进行行业专业人士招募,要求参与任务创建的专家至少有4年相关职业经验,简历需体现专业认可度、晋升经历及管理职责。
经统计,招募来的行业专家平均经验达14年。
这些人还需通过视频面试、背景调查、培训及测试才能参与项目(OpenAI提供优厚报酬),其前雇主涵盖苹果、谷歌、微软、Meta、三星、甲骨文、IBM、摩根大通等知名企业与机构,确保专家具备扎实的行业实践基础。
任务创建环节,每个GDPval任务包含“需求”和“交付成果”两部分,行业专家会对照O*NET中自身职业的任务分类设计任务,以保证任务覆盖的广度与代表性。
为评估任务质量,OpenAI要求专家根据职业实际标准,对每项任务的难度、代表性、完成时间和整体质量打分,并结合OEWS数据中对应职业的中位时薪,通过“平均完成时间×时薪”计算每个任务的经济价值。
最终,GDPval全集中包含1320项任务,所有任务均经过“自动化模型筛选+多轮人类专家审核”的迭代流程,每个任务获得至少3次、平均5次的人工审核。
专家在各评审阶段给出详细意见。任务会根据意见反复修改完善。
OpenAI开源了包含220项任务的优质子集,采用盲态专家pairwise对比法(专家不知晓成果来源的成对对比评分),对该子集进行评级。
每项对比评分平均耗时超过1小时。OpenAI表示还邀请了更多职业领域专家,对人类专家与模型输出进行评分。专家需为选择及排序结果提供详细依据。
针对优质子集,OpenAI同时开发了实验性自动评分器,其与人类专家评分的一致性达66%,仅比人类间评分一致性(71%)低5%。
对GPT-4o、o4-mini、o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro及Grok 4等模型评估后,结果显示:
在GDPval优质子集任务中,Claude Opus 4.1是整体表现最佳的模型,尤其在美观性方面(如文档格式、幻灯片布局)突出。
其输出的成果中,有47.6%被评定为优于或等同于人类专家水平的成果。
OpenAI各代模型在GDPval上的表现大致呈线性提升。
根据下图所示,GPT-5在准确性方面(如严格遵循指令、完成正确计算)优势显著。
换句话说,GPT-5在纯文本任务上表现更优,但Claude在.pdf、.xlsx、.ppt等文件类型的处理上表现更佳,展现出更强的视觉感知与美观设计能力。
在GDPval优质子集的全部任务中,有略多于50%的任务里,至少有一个模型的输出成果优于人类专家或与人类专家相当。
OpenAI还指出,将AI模型与人类监督结合,在完成任务时有望比单独人类专家更经济高效。
无论是“先让模型试做,不满意再自己改”的模式,还是“直接用模型成果”“只让模型试一次就自己做”等模式,都能帮人类节省成本和时间。
此外,研究发现增加推理努力(如对o3、GPT-5设置不同推理强度)、提供更多任务背景、优化提示词与智能体辅助框架(如通过在容器中支持GET请求,采用“N=4”的“最优N选1”抽样策略,搭配GPT-5作为判断模型)能显著提升模型性能。
OpenAI也指出了GDPval的局限性,如数据集规模有限(仅44种职业)、聚焦可在计算机上完成的知识工作(不包含体力劳动等)、任务为精准指定的一次性任务(缺乏交互性)、自动评分器存在不足、评估成本高等。
目前,GDPval尚处于初步阶段,OpenAI计划在未来的迭代版本中,逐步拓展覆盖范围、增强真实性与交互性,并纳入更多场景细节。
顺便一提,不仅OpenAI认为Claude优秀,曾经的亲密盟友微软最近也传来消息:与Anthropic合作优化Microsoft 365 Copilot AI助手(doge)。
参考链接:
[1]https://x.com/OpenAI/status/1971249374077518226
[2]https://evals.openai.com/
本文由主机测评网于2026-01-04发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260114679.html