当前位置：首页 > 科技资讯 > 正文

OpenAI新基准GDPval：Claude表现抢眼，AI模型经济潜力待挖掘

主机测评网
科技资讯
2026-05-01
596

OpenAI近期发布了一项重磅研究，该研究不仅介绍了名为GDPval的新基准，还意外地称赞了Claude的卓越表现。

GDPval的提出，旨在衡量AI模型在现实世界具有经济价值的任务上的表现。它覆盖了美国GDP贡献最大的9个行业中的44种职业，这些职业年均创收合计达3万亿美元。任务设计基于拥有14年经验的行业专家的代表性工作。

在对比评测中，主流模型的输出结果与人类专家的成果进行了专业评分人员的评估。最终，Claude Opus 4.1脱颖而出，其47.6%的产出被评定为媲美人类专家成果。

OpenAI新基准GDPval：Claude表现抢眼，AI模型经济潜力待挖掘 GDPval Claude GPT-5 AI模型第1张

相比之下，GPT-5的成绩为38.8%，位居第二；而GPT-4o与人类相比只有12.4%的胜率。OpenAI也谦逊地指出，不同模型各有优势，Claude Opus 4.1在美学方面尤为突出，而GPT-5则在准确性上更优。

值得一提的是，OpenAI还开源了包含220项任务的优质子集，并提供公开的自动评分服务。这一举动无疑为AI研究界带来了新的资源和评估工具。

OpenAI新基准GDPval：Claude表现抢眼，AI模型经济潜力待挖掘 GDPval Claude GPT-5 AI模型第2张

对于这项测试，网友纷纷表示赞赏，并调侃这可能是奥特曼的精心宣传手段。然而，不论动机如何，研究本身确实展示了AI的快速发展和巨大潜力。

OpenAI新基准GDPval：Claude表现抢眼，AI模型经济潜力待挖掘 GDPval Claude GPT-5 AI模型第3张

测试AI的“挣钱”能力

OpenAI指出，GDPval相比现有AI评估的优势在于：任务基于真实工作成果且关联完成时间与成本，具备现实性；涵盖O*NET追踪的大部分职业工作活动，具有代表性广度；任务要求处理多种格式文件并解析多个参考文件，涉及计算机使用与多模态；除了正确性还需考虑结构、风格等主观因素；以胜率为主要指标无上限，支持持续评估；任务难度高，行业专业人士平均需7小时完成。

其任务构建流程从确定核心行业与职业入手，筛选出对美国GDP贡献超5%的9个行业，再在每个行业内挑选贡献工资总额最多且以数字任务为主的职业。最终筛选出的44个职业合计年创收3万亿美元。

OpenAI新基准GDPval：Claude表现抢眼，AI模型经济潜力待挖掘 GDPval Claude GPT-5 AI模型第4张