【导读】AI不再局限于“答题”,正逐步涉足“挣钱”领域。但随之而来的,是可能淹没你的17份PPT。未来,AI或许能胜过专家,但更引人深思的是:它会取代你的工作,还是让你变身“AI监工”?
悄然之间,人工智能跨越了一个关键门槛:它们已能完成具有实际经济价值的任务。
当你把一份企业备忘录交给Claude,让它做个PPT,结果它一口气生成了17个版本。面对这种“用力过猛”的AI,你可能会质疑:它真的实用且具经济价值吗?
对此,宾夕法尼亚大学沃顿商学院教授Ethan Mollick给出了他的见解。
考虑到开发新AI所投入的天量资源,我们却在精确衡量AI“智能”程度这件事上意外地捉襟见肘。
目前,最普遍的做法是将AI视作人类,通过标准化测试来统计其答对题目的数量。这类被称为“基准测试”的评估体系多达数十种,已成为衡量AI能力演进的核心标尺。
要评估AI的实用性及经济价值,需依赖数据。
OpenAI发布了一个名为GDPVAL的新基准测试,它专门考察大模型在现实工作场景中能否创造经济价值。
这一次,考得很“实战”。
OpenAI组了个高端局:
测试结果耐人寻味:人类专家赢了,但赢得艰难。
同时,测试发现AI进步飞快:较新的模型得分远超旧模型。
输在哪?大模型输给人类,并非因“幻觉”或“胡说八道”,主要是因为格式排版不好或未能精确遵循指令——这些正是最易修复的短板。
以前,大家认为AI独立完成长任务很难。但剑桥大学等机构的研究颠覆了这一认知:AI能力并未遇瓶颈,反而在爆发。
剑桥大学研究人员发现四大原因:
尽管智能体能够完成的任务仍有限,但它有经济价值且价值递增。未来如何发展,取决于我们如何使用AI。
本文由主机测评网于2026-05-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260546857.html