当前位置:首页 > 科技资讯 > 正文

AI进化加速:2026年,我们或将与AI团队并肩工作

【导读】当大众还在调侃AI的失误时,科学家已在实验室见证其独立完成数小时复杂任务的能力。AlphaGo作者Julian发出警示:公众对AI的认知,已落后至少一个世代。最新数据显示,AI正以指数速度逼近专家水平,2026年可能成为关键转折点。我们,是在见证未来,还是在漠视危机?

Julian Schrittwieser,作为AlphaGo、AlphaZero及MuZero的核心成员,通过个人博客发出尖锐警告:当前社会对AI进展的认知,与前沿现实存在世代差距。

AI进化加速:2026年,我们或将与AI团队并肩工作 AI 进化 指数增长 职业任务 第1张

许多人仍嘲笑AI的错误与局限,但实验室内的研究者却目睹了另一番景象——AI独立完成数小时复杂任务,且进化速度呈指数级增长。

正是基于这一洞察,Julian决定发声:公众认知与前沿现实间存在巨大鸿沟。

AI进化加速:2026年,我们或将与AI团队并肩工作 AI 进化 指数增长 职业任务 第2张

科学家呼吁:为何大众低估AI?

尽管Julian的名字不似马斯克般响亮,但在AI界,他却是举足轻重的存在。

AI进化加速:2026年,我们或将与AI团队并肩工作 AI 进化 指数增长 职业任务 第3张

作为AlphaGo等项目的核心成员,他见证了AI从科幻到现实的飞跃。

因此,他在博客中的这番话尤为振聋发聩:

人们因AI的失误而急于下结论,认为其永无法达到人类水平或影响有限。但别忘了,几年前AI编程、设计网站还是科幻!

他认为,当前的舆论氛围显得荒谬。

大众聚焦于模型出错的细节,断言“AI不过如此”;记者对比两代模型的闲聊功能,认为“进步停滞”;政策讨论中,AI被视为遥远的泡沫。

然而,实验室中的研究者看到的是另一幅画面:AI的能力曲线正以指数型跃升。

Julian直言,公众与前沿间的认知差距至少滞后一个世代。

指数增长下的震撼:AI“独立工作”时间翻倍

Julian引述的关键证据来自研究模型能力的机构——METR (Model Evaluation and Threat Research)

他们不再单纯评估模型的答题准确率,而是衡量其能自主完成多长时间的真实任务。

今年早些时候,METR发现:Claude 3.7 Sonnet能在约一小时长的软件工程任务中保持50%的成功率

AI进化加速:2026年,我们或将与AI团队并肩工作 AI 进化 指数增长 职业任务 第4张

这意味着,它已具备独立支撑一段实际工作的能力。

更令人震惊的是,这一曲线呈指数增长趋势,每7个月翻一倍。

Sonnet 3.7是7个月前的模型,与METR统计的翻倍周期吻合。

最新的对照显示,在METR官网更新的图表里,Grok 4、Claude Opus 4.1、GPT-5已位于右上角。

AI进化加速:2026年,我们或将与AI团队并肩工作 AI 进化 指数增长 职业任务 第5张

横轴为时间,纵轴为可完成任务的时长。GPT-5、Opus 4.1已突破两小时大关。

它们不再是一小时工作,而是能支撑超过两小时的任务。指数并未放缓,反而略超预期。

跨行业评测:AI逼近人类专家

如果说METR的研究证明了AI在软件工程任务上的“时间地平线”不断拉长,那么另一项研究——OpenAI的GDPval则将此趋势带入现实经济。

GDPval覆盖9大行业、44个职业,每个职业挑选30个真实工作样本,共1320项任务。

AI进化加速:2026年,我们或将与AI团队并肩工作 AI 进化 指数增长 职业任务 第6张

GDPval结果显示,GPT-5在许多职业任务上已接近人类水准。Claude Opus 4.1在多个维度甚至领先GPT-5。

这些任务由平均有14年经验的行业专家设计,再交给模型完成,最后由盲评打分。

最新结果显示,GPT-5在许多职业任务上已接近人类水准。更令人意外的是,Claude Opus 4.1在GDPval上的表现显著优于GPT-5。

质疑声起:趋势真的可靠吗?

在Julian的博文下,有读者认同“AI没有泡沫”,但也有人提出质疑。

AI进化加速:2026年,我们或将与AI团队并肩工作 AI 进化 指数增长 职业任务 第7张

“把AI的进展直接类比成指数曲线很危险。”Atharva Raykar的评论获得高赞。他认为AI的进步更类似摩尔定律,靠整个行业不断叠加创新与工程突破。

“替代”还是“百倍增幅的协作”?

“如果趋势真的继续,”Julian在文章最后写道,“而社会却没有准备,那代价将会极其沉重。”

"