OpenAI近期发布了一项重磅研究,该研究不仅介绍了名为GDPval的新基准,还意外地称赞了Claude的卓越表现。
GDPval的提出,旨在衡量AI模型在现实世界具有经济价值的任务上的表现。它覆盖了美国GDP贡献最大的9个行业中的44种职业,这些职业年均创收合计达3万亿美元。任务设计基于拥有14年经验的行业专家的代表性工作。
在对比评测中,主流模型的输出结果与人类专家的成果进行了专业评分人员的评估。最终,Claude Opus 4.1脱颖而出,其47.6%的产出被评定为媲美人类专家成果。
相比之下,GPT-5的成绩为38.8%,位居第二;而GPT-4o与人类相比只有12.4%的胜率。OpenAI也谦逊地指出,不同模型各有优势,Claude Opus 4.1在美学方面尤为突出,而GPT-5则在准确性上更优。
值得一提的是,OpenAI还开源了包含220项任务的优质子集,并提供公开的自动评分服务。这一举动无疑为AI研究界带来了新的资源和评估工具。
对于这项测试,网友纷纷表示赞赏,并调侃这可能是奥特曼的精心宣传手段。然而,不论动机如何,研究本身确实展示了AI的快速发展和巨大潜力。
OpenAI指出,GDPval相比现有AI评估的优势在于:任务基于真实工作成果且关联完成时间与成本,具备现实性;涵盖O*NET追踪的大部分职业工作活动,具有代表性广度;任务要求处理多种格式文件并解析多个参考文件,涉及计算机使用与多模态;除了正确性还需考虑结构、风格等主观因素;以胜率为主要指标无上限,支持持续评估;任务难度高,行业专业人士平均需7小时完成。
其任务构建流程从确定核心行业与职业入手,筛选出对美国GDP贡献超5%的9个行业,再在每个行业内挑选贡献工资总额最多且以数字任务为主的职业。最终筛选出的44个职业合计年创收3万亿美元。
接着进行行业专业人士招募,要求参与任务创建的专家至少有4年相关职业经验。这些专家平均拥有14年的经验,来自苹果、谷歌、微软等知名企业。
每个GDPval任务包含“需求”和“交付成果”两部分,由行业专家对照O*NET中自身职业的任务分类设计任务。为了评估任务质量,OpenAI还通过“平均完成时间×时薪”计算每个任务的经济价值。
最终,GDPval全集中总共包含1320项任务,所有任务均经过多轮人类专家审核。专家在各评审阶段会给出详细意见,任务会根据意见反复修改完善。
在针对包含220项任务的优质子集的评估中,OpenAI采用了盲态专家pairwise对比法。结果显示,Claude Opus 4.1是整体表现最佳的模型,尤其在美观性方面表现突出。
其输出的成果中,有47.6%被评定为优于或等同于人类专家水平的成果。
此外,研究发现增加推理努力、提供更多任务背景、优化提示词与智能体辅助框架能显著提升模型性能。虽然GDPval仍存在局限性,但OpenAI计划在未来迭代中逐步拓展其覆盖范围、增强真实性与交互性。
本文由主机测评网于2026-05-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260541994.html