【导读】当大众还在调侃AI的失误时,科学家已在实验室见证其独立完成数小时复杂任务的能力。AlphaGo作者Julian发出警示:公众对AI的认知,已落后至少一个世代。最新数据显示,AI正以指数速度逼近专家水平,2026年可能成为关键转折点。我们,是在见证未来,还是在漠视危机?
Julian Schrittwieser,作为AlphaGo、AlphaZero及MuZero的核心成员,通过个人博客发出尖锐警告:当前社会对AI进展的认知,与前沿现实存在世代差距。
许多人仍嘲笑AI的错误与局限,但实验室内的研究者却目睹了另一番景象——AI独立完成数小时复杂任务,且进化速度呈指数级增长。
正是基于这一洞察,Julian决定发声:公众认知与前沿现实间存在巨大鸿沟。
尽管Julian的名字不似马斯克般响亮,但在AI界,他却是举足轻重的存在。
作为AlphaGo等项目的核心成员,他见证了AI从科幻到现实的飞跃。
因此,他在博客中的这番话尤为振聋发聩:
人们因AI的失误而急于下结论,认为其永无法达到人类水平或影响有限。但别忘了,几年前AI编程、设计网站还是科幻!
他认为,当前的舆论氛围显得荒谬。
大众聚焦于模型出错的细节,断言“AI不过如此”;记者对比两代模型的闲聊功能,认为“进步停滞”;政策讨论中,AI被视为遥远的泡沫。
然而,实验室中的研究者看到的是另一幅画面:AI的能力曲线正以指数型跃升。
Julian直言,公众与前沿间的认知差距至少滞后一个世代。
Julian引述的关键证据来自研究模型能力的机构——METR (Model Evaluation and Threat Research)。
他们不再单纯评估模型的答题准确率,而是衡量其能自主完成多长时间的真实任务。
今年早些时候,METR发现:Claude 3.7 Sonnet能在约一小时长的软件工程任务中保持50%的成功率。
这意味着,它已具备独立支撑一段实际工作的能力。
更令人震惊的是,这一曲线呈指数增长趋势,每7个月翻一倍。
Sonnet 3.7是7个月前的模型,与METR统计的翻倍周期吻合。
最新的对照显示,在METR官网更新的图表里,Grok 4、Claude Opus 4.1、GPT-5已位于右上角。
横轴为时间,纵轴为可完成任务的时长。GPT-5、Opus 4.1已突破两小时大关。
它们不再是一小时工作,而是能支撑超过两小时的任务。指数并未放缓,反而略超预期。
如果说METR的研究证明了AI在软件工程任务上的“时间地平线”不断拉长,那么另一项研究——OpenAI的GDPval则将此趋势带入现实经济。
GDPval覆盖9大行业、44个职业,每个职业挑选30个真实工作样本,共1320项任务。
GDPval结果显示,GPT-5在许多职业任务上已接近人类水准。Claude Opus 4.1在多个维度甚至领先GPT-5。
这些任务由平均有14年经验的行业专家设计,再交给模型完成,最后由盲评打分。
最新结果显示,GPT-5在许多职业任务上已接近人类水准。更令人意外的是,Claude Opus 4.1在GDPval上的表现显著优于GPT-5。
在Julian的博文下,有读者认同“AI没有泡沫”,但也有人提出质疑。
“把AI的进展直接类比成指数曲线很危险。”Atharva Raykar的评论获得高赞。他认为AI的进步更类似摩尔定律,靠整个行业不断叠加创新与工程突破。
“如果趋势真的继续,”Julian在文章最后写道,“而社会却没有准备,那代价将会极其沉重。”
"本文由主机测评网于2026-05-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260543896.html