当前位置:首页 > 科技资讯 > 正文

AI进展被低估:科学家警告2026年或成临界点

【导读】当大众仍在嘲笑AI编写代码的错误时,科研实验室中的景象却截然不同:AI已能独立处理长达数小时的复杂任务。AlphaGo的创造者Julian罕见地公开表示:公众对人工智能的认知,已经落后了整整一个时代。最新数据揭示,AI正以指数级速度接近专家水平,2026年可能成为一个关键转折点。我们究竟是在目睹未来,还是在自我欺骗?

AlphaGo和AlphaZero的核心开发者——Julian提出了一个尖锐的类比:当前人们对AI的态度,与早期面对新冠疫情时的反应惊人相似。

Julian的观点直截了当:我们正在严重低估AI的发展速度。

AI进展被低估:科学家警告2026年或成临界点 AI低估 指数增长 人类专家 2026转折点 第1张

许多人还在调侃AI犯错,抱怨它无法替代人类;但在前沿实验室里,研究者目睹的却是另一番场景——AI已经能够自主执行持续数小时的复杂任务,并且其能力正以指数曲线进化。

这正是他决定公开发声的原因:公众的认知与前沿现实之间,至少存在一个世代的差距。

AI进展被低估:科学家警告2026年或成临界点 AI低估 指数增长 人类专家 2026转折点 第2张

科学家不再沉默:为何AI被大众严重低估?

Julian Schrittwieser的名字或许不如马斯克、奥特曼那样广为人知,但在AI领域,他是一位举足轻重的人物。

AI进展被低估:科学家警告2026年或成临界点 AI低估 指数增长 人类专家 2026转折点 第3张

作为AlphaGo、AlphaZero和MuZero的核心贡献者之一,他亲历了AI从“围棋幻想”到“现实碾压”的全过程。

正因如此,当他在个人博客中写下那段话时,显得格外刺耳:

人们注意到AI仍会犯错,就匆忙得出结论:它永远无法达到人类水平,或影响有限。但别忘了——就在几年前,让AI编写程序、设计网站还完全是科幻!

在他看来,当前的舆论氛围有些荒谬。

大众紧盯着模型出错的细节,断言“AI不过如此”;记者比较两代模型的闲聊能力,觉得“变化不大”,就认定“进步停滞”;政策讨论中,AI被视作遥远而虚幻的“泡沫”。

然而,实验室里的研究者看到的却是另一幅图景:AI的能力曲线正在以指数型跃升。

Julian bluntly指出,公众与前沿之间的认知鸿沟,至少滞后了一个世代

他站出来发声,不是为了渲染危机,而是为了提醒:如果连科学家眼前清晰可见的趋势都被忽视,当真正的临界点到来时,我们将毫无准备。

指数曲线下的震撼:AI“独立工作”时长成倍增长

Julian提出的第一个关键证据,来自一家专注于模型能力评估的机构——METR (Model Evaluation and Threat Research)

他们的方法很直接:不再仅看模型答题对错,而是衡量它们能自主完成多长时间的真实任务。

今年早些时候的研究显示,Claude 3.7 Sonnet能在约1小时长度的软件工程任务中保持50%的成功率

AI进展被低估:科学家警告2026年或成临界点 AI低估 指数增长 人类专家 2026转折点 第4张

这意味着,它已经具备独立支撑一段“实打实工作时长”的能力。

Julian指出,更令人震惊的是——这条曲线呈现出指数增长趋势,每7个月翻一倍

Sonnet 3.7已经是7个月前的模型,正好对应METR统计出的翻倍周期。

他随即给出最新对照:在METR官网更新的图表中,Grok 4、Claude Opus 4.1、GPT-5已位列右上角。

AI进展被低估:科学家警告2026年或成临界点 AI低估 指数增长 人类专家 2026转折点 第5张

Julian博文引用的METR数据,横轴为时间,纵轴为可完成任务的时长。可以看到GPT-5、Opus 4.1已经突破两小时大关。

它们不再是“1小时工作”,而是能够支撑超过2小时的任务。指数增长并未放缓,反而略超预期

这条线的含义不止于“2小时”,而是它所暗示的未来外推

如果趋势不变,2026年年中,模型将能连续完成8小时工作;再往后,2027年,模型可能在许多复杂任务上超越人类专家

Julian的意思很明确:你或许不必喜欢这种预测,但忽视它的代价极高

跨行业评测:AI已逼近人类专家水平

如果说METR的研究证明了AI在软件工程任务上的“时间地平线”不断延伸,那么另一项研究——OpenAI的GDPval则将这一趋势带入现实经济。

GDPval的设计非常务实:选取44个职业、9大行业的任务,每个职业挑选30个真实工作样本,总计1320项任务。

AI进展被低估:科学家警告2026年或成临界点 AI低估 指数增长 人类专家 2026转折点 第6张

GDPval任务覆盖9大行业、44个职业,模型表现已与人类差距极小。Claude Opus 4.1在多个维度甚至领先GPT-5。

这些任务由平均拥有14年经验的行业专家设计,再交由模型完成,最后由盲评打分:只评估结果,不透露作者身份。

Julian在博文中写道:

最新结果显示,GPT-5在许多职业任务上已接近人类水平。更令人意外的是,Claude Opus 4.1(发布时间早于GPT-5)在GDPval上的表现显著优于GPT-5,几乎追平行业专家。

这不是某个孤立基准测试的“漂亮成绩”,而是在跨越法律、金融、工程、医疗、创意等行业的真实检验中,AI开始逼近人类平均水平。

AI进展被低估:科学家警告2026年或成临界点 AI低估 指数增长 人类专家 2026转折点 第7张

OpenAI GDPval评测结果(2024–2025)。纵轴为模型在真实职业任务中的胜率(对比有多年经验的行业专家),深色为纯胜率,浅色为胜或平局。可以看到GPT-5已逼近“行业专家水平线”。

更值得注意的是:OpenAI在这份报告中并未刻意突出自家模型,反而坦诚承认友商Claude的表现更佳

AI进展被低估:科学家警告2026年或成临界点 AI低估 指数增长 人类专家 2026转折点 第8张

Julian特别称赞这一点,认为这是行业中罕见的“科研诚信”:

在追求安全和有益结果时,竞争输赢反而不是最重要的。

当然,GDPval的设计也非完美。

Julian也提醒,许多任务仍相对“整洁”(混乱程度不高),未模拟长周期、多轮反馈的复杂工作环境。

但即便如此,趋势已足够说明问题——AI不仅能编写小程序,更在真实职业场景中,一步步靠近甚至超越人类。

质疑声浮现:趋势真的可靠吗?

在Julian的博文下,许多读者认同“AI没有泡沫”,但也有人提出尖锐质疑。

其中,Atharva Raykar的评论获得高赞。他指出:

将AI进展直接类比为指数曲线其实很危险。疫情的指数传播有明确机制支撑,而AI的提升并非必然。

AI进展被低估:科学家警告2026年或成临界点 AI低估 指数增长 人类专家 2026转折点 第9张

他的观点是:AI进步更类似摩尔定律,依赖整个行业持续叠加创新与工程突破。

若无推理模型等关键节点突破,能力曲线可能早已“撞墙”。因此,单纯外推曲线未必能保证未来必然加速。

Atharva还提到另一问题:评测任务不够“混乱”

METR任务的平均“复杂度得分”仅3/16,相当于结构清晰的小型工程任务;而现实中的软件项目、科研探索,往往在7–16区间,远比基准测试混乱。

也就是说,当前评测结果可能高估了AI在真实世界中的适用性。

Julian在后续回复中承认这些提醒的合理性,但也强调:

我类比的重点并非AI一定会像病毒传播那样加速,而是公众和决策层正在忽视已经发生的增长。

短期(1–2年)趋势依然清晰——在这种尺度上,外推往往比专家预测更可靠。

在他看来,关键不是曲线未来是否会“拐弯”,而是:如果趋势真持续,而社会毫无准备,代价将极其沉重。

未来是替代,还是百倍增幅的协作?

Julian在文章结尾给出了最具冲击力的预测:

2026年中,至少一款顶级模型能连续自主完成8小时工作任务——这意味着它不再只是“对话工具”,而能真正以“全职员工”形式参与工作流。

2026年底,在多个行业任务中,会有模型表现正式达到人类专家平均水平

2027年之后,在许多垂直任务里,AI表现将频繁超越专家,并逐步成为生产力主力。

这不是科幻,而是从当前曲线直接外推出的“保守版本”。

AI进展被低估:科学家警告2026年或成临界点 AI低估 指数增长 人类专家 2026转折点 第10张

Julian直言,忽视这种趋势比过度担忧更危险。

但他同时强调,AI的未来不一定意味着“替代”。在他设想的场景中,更可能出现的是这样一种画面:

人类依旧是指挥者,但身边会有几十个、上百个超强助手。人机协作下的效率提升,不是1倍,而是10倍、100倍。

这种模式不仅能避免大规模失业恐慌,还可能释放前所未有的创造力。

科研、设计、医疗、法律、金融……几乎所有行业都将因此重组。

Julian将这种可能性称为“更安全、更有益的道路”:让AI成为超强工具,而非对手。

这幅未来图景令人震撼:或许在不远的2026或2027年,你不是被AI取代,而是带领一支“AI团队”投入工作

Julian的提醒其实很简单:我们正在低估AI。

不是说它完美无缺,而是它的曲线比多数人想象的更快、更陡。

按照当前趋势,2026年或许就是关键转折点——AI可能不再是“实验室奇观”,而是走进每个普通行业,真正改写经济底层逻辑。

这不是危言耸听,而是一个事实:未来两三年内,我们都将直面一个被低估的临界点。

当那一刻到来时,每个人都要回答同一个问题:你会抵抗、观望,还是率先与你的AI团队并肩上岗?

参考资料:

https://x.com/polynoamial/status/1972167347088904371

https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/