当前位置:首页 > 科技资讯 > 正文

OpenAI与Anthropic模型逼近专家水平,GDPval测试展现AI进步

OpenAI与Anthropic模型逼近专家水平,GDPval测试展现AI进步 OpenAI Anthropic GPT-5 Claude Opus 4.1 GDPval 第1张

据OpenAI透露,其GPT-5模型及竞争对手Anthropic的Claude Opus 4.1已展现出近乎专业水准的能力。

在9月25日(周四),人工智能研究巨头OpenAI发布了一项名为GDPval的新基准测试,旨在比较其AI模型与各类专业人士的工作效能。

GDPval是一次初探,用以评估OpenAI的系统在经济价值工作上接近并超越人类的程度。鉴于经济价值工作是OpenAI发展通用人工智能(AGI)的关键领域,这一测试显得尤为重要。

OpenAI在周四宣布,其GPT-5模型以及Anthropic的Claude Opus 4.1“已经接近行业专家的工作质量”。

尽管有CEO预测AI将在几年内取代人类工作,但这并不意味着OpenAI的模型会立即做到这一点。OpenAI承认GDPval目前仅涵盖人们实际工作中有限的一部分任务。尽管如此,这是该公司用来衡量AI向此里程碑迈进的一种新方式。

GDPval基于对美国GDP贡献最大的九个行业,涵盖医疗、金融、制造业和政府等领域。测试覆盖了44种职业,从软件工程师到护士再到记者。

在首个版本GDPval-v0中,OpenAI邀请资深专业人士对比AI生成的报告与其他专业人士的成果,并选出更优者。

例如,某任务要求投行人员为“最后一公里配送行业”制作竞争格局分析,并与AI生成的报告进行对比。随后,OpenAI计算了AI模型在所有44个职业中对抗人类报告的“胜率”。

结果显示,GPT-5-high(高算力版本GPT-5)在40.6%的情况下被评为优于或与行业专家持平。而Anthropic的Claude Opus 4.1模型在49%的任务中被评为不输于行业专家,表现优于OpenAI的模型。

OpenAI解释称,Claude得分更高部分原因是其倾向于生成更美观的图表,而非纯粹性能更优。

值得注意的是,大多数职业的工作远不止提交研究报告,这是GDPval-v0所测试的全部内容。尽管如此,OpenAI计划在未来开发更全面的测试,涵盖更多行业和交互式工作流程。

尽管如此,OpenAI仍认为GDPval的进展具有重大意义。

在接受采访时,OpenAI首席经济学家Aaron Chatterji表示,GDPval的测试结果表明,这些岗位上的人们可以利用AI模型节省时间,从而专注于更有意义的工作。

“因为模型在某些事情上已经变得很擅长,随着能力的提升,人们可以越来越多地把部分工作交给模型,去做潜在更有价值的事情,”Chatterji说。

OpenAI评估负责人Tejal Patwardhan表示,她对GDPval的进步速度感到鼓舞。

Patwardhan指出,约15个月前发布的GPT-4o模型得分仅为13.7%(胜出或持平人类),而GPT-5的成绩几乎提高了三倍。她预计这一趋势将持续下去。