当前位置：首页 > 科技资讯 > 正文

OpenAI推出GDPval基准测试：AI模型在多行业任务中逼近人类专家水平

OpenAI推出GDPval基准测试：AI模型在多行业任务中逼近人类专家水平 OpenAI GDPval基准测试 AI模型评估人类专家对比第1张

OpenAI宣称，其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1“已在多项专业任务中接近行业专家的工作质量”。

当地时间9月25日周四，人工智能研究公司OpenAI发布了一项新的基准测试GDPval，旨在系统比较其AI模型与各行业专业人士的工作表现。

GDPval作为初步尝试，专门用于评估OpenAI的系统在经济价值工作中距离超越人类还有多远，而经济价值工作是实现通用人工智能（AGI）的关键组成部分。

OpenAI周四表示，其GPT-5模型及Anthropic的Claude Opus 4.1“已接近行业专家的工作质量”。

这并不意味着AI模型将立即取代人类岗位。尽管一些首席执行官预测AI将在几年内替代人类，但OpenAI承认GDPval目前仅涵盖实际工作中有限的一部分任务。不过，这仍是该公司衡量AI向该里程碑迈进的最新方式之一。

GDPval基于美国GDP贡献最大的九个行业设计，覆盖医疗、金融、制造业和政府等领域。测试包含44种职业，从软件工程师到护士再到记者。

在首版GDPval-v0中，OpenAI邀请资深专业人士对比AI生成的报告与其他专家的成果，并挑选出更优者。

例如，一项任务要求投资银行人员为“最后一公里配送行业”制作竞争格局分析，并与AI生成的报告进行对比。OpenAI随后将AI模型在所有44个职业中对抗人类报告的“胜率”进行平均计算。

结果显示，GPT-5-high（高算力版本GPT-5）在40.6%的情况下被评为优于或与行业专家持平。

而Anthropic的Claude Opus 4.1模型在49%的任务中被评为不输于行业专家，这一表现超过了OpenAI的模型。

OpenAI对此解释称，Claude得分更高，部分原因是其倾向于生成更美观的图表，而非纯粹性能更优。

需要说明的是，大多数职业的工作远不止提交研究报告，而GDPval-v0仅测试此内容。OpenAI承认这一点，并计划在未来开发更全面的测试，涵盖更多行业和交互式工作流程。

尽管如此，OpenAI仍认为GDPval的进展具有重要意义。

OpenAI首席经济学家Aaron Chatterji在接受采访时表示，GDPval的测试结果表明，这些岗位上的人们可以利用AI模型节省时间，从而专注于更有意义的工作。

“因为模型在某些事情上已经变得很擅长，随着能力的提升，人们可以越来越多地把部分工作交给模型，去做潜在更有价值的事情，”Chatterji说。

OpenAI评估负责人Tejal Patwardhan表示，她对GDPval的进步速度感到鼓舞。

Patwardhan指出，约15个月前发布的GPT-4o模型得分仅为13.7%（胜出或持平人类），而GPT-5的成绩几乎提高了三倍。她预计这一趋势还会继续。

本文由主机测评网于2026-01-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260114598.html