当前位置：首页 > 科技资讯 > 正文

AI进展被低估：科学家警告2026年或成临界点

主机测评网
科技资讯
2026-01-19
699

【导读】当大众仍在嘲笑AI编写代码的错误时，科研实验室中的景象却截然不同：AI已能独立处理长达数小时的复杂任务。AlphaGo的创造者Julian罕见地公开表示：公众对人工智能的认知，已经落后了整整一个时代。最新数据揭示，AI正以指数级速度接近专家水平，2026年可能成为一个关键转折点。我们究竟是在目睹未来，还是在自我欺骗？

AlphaGo和AlphaZero的核心开发者——Julian提出了一个尖锐的类比：当前人们对AI的态度，与早期面对新冠疫情时的反应惊人相似。

Julian的观点直截了当：我们正在严重低估AI的发展速度。

AI进展被低估：科学家警告2026年或成临界点 AI低估指数增长人类专家 2026转折点第1张

许多人还在调侃AI犯错，抱怨它无法替代人类；但在前沿实验室里，研究者目睹的却是另一番场景——AI已经能够自主执行持续数小时的复杂任务，并且其能力正以指数曲线进化。

这正是他决定公开发声的原因：公众的认知与前沿现实之间，至少存在一个世代的差距。

AI进展被低估：科学家警告2026年或成临界点 AI低估指数增长人类专家 2026转折点第2张

科学家不再沉默：为何AI被大众严重低估？

Julian Schrittwieser的名字或许不如马斯克、奥特曼那样广为人知，但在AI领域，他是一位举足轻重的人物。

AI进展被低估：科学家警告2026年或成临界点 AI低估指数增长人类专家 2026转折点第3张

作为AlphaGo、AlphaZero和MuZero的核心贡献者之一，他亲历了AI从“围棋幻想”到“现实碾压”的全过程。

正因如此，当他在个人博客中写下那段话时，显得格外刺耳：

人们注意到AI仍会犯错，就匆忙得出结论：它永远无法达到人类水平，或影响有限。但别忘了——就在几年前，让AI编写程序、设计网站还完全是科幻！

在他看来，当前的舆论氛围有些荒谬。

大众紧盯着模型出错的细节，断言“AI不过如此”；记者比较两代模型的闲聊能力，觉得“变化不大”，就认定“进步停滞”；政策讨论中，AI被视作遥远而虚幻的“泡沫”。

然而，实验室里的研究者看到的却是另一幅图景：AI的能力曲线正在以指数型跃升。

Julian bluntly指出，公众与前沿之间的认知鸿沟，至少滞后了一个世代。

他站出来发声，不是为了渲染危机，而是为了提醒：如果连科学家眼前清晰可见的趋势都被忽视，当真正的临界点到来时，我们将毫无准备。

指数曲线下的震撼：AI“独立工作”时长成倍增长

Julian提出的第一个关键证据，来自一家专注于模型能力评估的机构——METR (Model Evaluation and Threat Research)。

他们的方法很直接：不再仅看模型答题对错，而是衡量它们能自主完成多长时间的真实任务。

今年早些时候的研究显示，Claude 3.7 Sonnet能在约1小时长度的软件工程任务中保持50%的成功率。

AI进展被低估：科学家警告2026年或成临界点 AI低估指数增长人类专家 2026转折点第4张

这意味着，它已经具备独立支撑一段“实打实工作时长”的能力。

Julian指出，更令人震惊的是——这条曲线呈现出指数增长趋势，每7个月翻一倍。

Sonnet 3.7已经是7个月前的模型，正好对应METR统计出的翻倍周期。

他随即给出最新对照：在METR官网更新的图表中，Grok 4、Claude Opus 4.1、GPT-5已位列右上角。

AI进展被低估：科学家警告2026年或成临界点 AI低估指数增长人类专家 2026转折点第5张

Julian博文引用的METR数据，横轴为时间，纵轴为可完成任务的时长。可以看到GPT-5、Opus 4.1已经突破两小时大关。

它们不再是“1小时工作”，而是能够支撑超过2小时的任务。指数增长并未放缓，反而略超预期。

这条线的含义不止于“2小时”，而是它所暗示的未来外推：

如果趋势不变，2026年年中，模型将能连续完成8小时工作；再往后，2027年，模型可能在许多复杂任务上超越人类专家。

Julian的意思很明确：你或许不必喜欢这种预测，但忽视它的代价极高。

跨行业评测：AI已逼近人类专家水平

如果说METR的研究证明了AI在软件工程任务上的“时间地平线”不断延伸，那么另一项研究——OpenAI的GDPval则将这一趋势带入现实经济。

GDPval的设计非常务实：选取44个职业、9大行业的任务，每个职业挑选30个真实工作样本，总计1320项任务。

AI进展被低估：科学家警告2026年或成临界点 AI低估指数增长人类专家 2026转折点第6张

GDPval任务覆盖9大行业、44个职业，模型表现已与人类差距极小。Claude Opus 4.1在多个维度甚至领先GPT-5。

这些任务由平均拥有14年经验的行业专家设计，再交由模型完成，最后由盲评打分：只评估结果，不透露作者身份。

Julian在博文中写道：

最新结果显示，GPT-5在许多职业任务上已接近人类水平。更令人意外的是，Claude Opus 4.1（发布时间早于GPT-5）在GDPval上的表现显著优于GPT-5，几乎追平行业专家。

这不是某个孤立基准测试的“漂亮成绩”，而是在跨越法律、金融、工程、医疗、创意等行业的真实检验中，AI开始逼近人类平均水平。

AI进展被低估：科学家警告2026年或成临界点 AI低估指数增长人类专家 2026转折点第7张

OpenAI GDPval评测结果（2024–2025）。纵轴为模型在真实职业任务中的胜率（对比有多年经验的行业专家），深色为纯胜率，浅色为胜或平局。可以看到GPT-5已逼近“行业专家水平线”。

更值得注意的是：OpenAI在这份报告中并未刻意突出自家模型，反而坦诚承认友商Claude的表现更佳。

AI进展被低估：科学家警告2026年或成临界点 AI低估指数增长人类专家 2026转折点第8张

Julian特别称赞这一点，认为这是行业中罕见的“科研诚信”：

在追求安全和有益结果时，竞争输赢反而不是最重要的。

当然，GDPval的设计也非完美。

Julian也提醒，许多任务仍相对“整洁”（混乱程度不高），未模拟长周期、多轮反馈的复杂工作环境。

但即便如此，趋势已足够说明问题——AI不仅能编写小程序，更在真实职业场景中，一步步靠近甚至超越人类。

质疑声浮现：趋势真的可靠吗？

在Julian的博文下，许多读者认同“AI没有泡沫”，但也有人提出尖锐质疑。

其中，Atharva Raykar的评论获得高赞。他指出：

将AI进展直接类比为指数曲线其实很危险。疫情的指数传播有明确机制支撑，而AI的提升并非必然。

AI进展被低估：科学家警告2026年或成临界点 AI低估指数增长人类专家 2026转折点第9张

他的观点是：AI进步更类似摩尔定律，依赖整个行业持续叠加创新与工程突破。

若无推理模型等关键节点突破，能力曲线可能早已“撞墙”。因此，单纯外推曲线未必能保证未来必然加速。

Atharva还提到另一问题：评测任务不够“混乱”。

METR任务的平均“复杂度得分”仅3/16，相当于结构清晰的小型工程任务；而现实中的软件项目、科研探索，往往在7–16区间，远比基准测试混乱。

也就是说，当前评测结果可能高估了AI在真实世界中的适用性。

Julian在后续回复中承认这些提醒的合理性，但也强调：

我类比的重点并非AI一定会像病毒传播那样加速，而是公众和决策层正在忽视已经发生的增长。

短期（1–2年）趋势依然清晰——在这种尺度上，外推往往比专家预测更可靠。

在他看来，关键不是曲线未来是否会“拐弯”，而是：如果趋势真持续，而社会毫无准备，代价将极其沉重。

未来是替代，还是百倍增幅的协作？

Julian在文章结尾给出了最具冲击力的预测：

2026年中，至少一款顶级模型能连续自主完成8小时工作任务——这意味着它不再只是“对话工具”，而能真正以“全职员工”形式参与工作流。

2026年底，在多个行业任务中，会有模型表现正式达到人类专家平均水平。

2027年之后，在许多垂直任务里，AI表现将频繁超越专家，并逐步成为生产力主力。

这不是科幻，而是从当前曲线直接外推出的“保守版本”。

AI进展被低估：科学家警告2026年或成临界点 AI低估指数增长人类专家 2026转折点第10张

Julian直言，忽视这种趋势比过度担忧更危险。

但他同时强调，AI的未来不一定意味着“替代”。在他设想的场景中，更可能出现的是这样一种画面：

人类依旧是指挥者，但身边会有几十个、上百个超强助手。人机协作下的效率提升，不是1倍，而是10倍、100倍。

这种模式不仅能避免大规模失业恐慌，还可能释放前所未有的创造力。

科研、设计、医疗、法律、金融……几乎所有行业都将因此重组。

Julian将这种可能性称为“更安全、更有益的道路”：让AI成为超强工具，而非对手。

这幅未来图景令人震撼：或许在不远的2026或2027年，你不是被AI取代，而是带领一支“AI团队”投入工作。

Julian的提醒其实很简单：我们正在低估AI。

不是说它完美无缺，而是它的曲线比多数人想象的更快、更陡。

按照当前趋势，2026年或许就是关键转折点——AI可能不再是“实验室奇观”，而是走进每个普通行业，真正改写经济底层逻辑。

这不是危言耸听，而是一个事实：未来两三年内，我们都将直面一个被低估的临界点。

当那一刻到来时，每个人都要回答同一个问题：你会抵抗、观望，还是率先与你的AI团队并肩上岗？

参考资料：

https://x.com/polynoamial/status/1972167347088904371

https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/

服务器教程性价比服务器免费vps

本文由主机测评网于2026-01-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260118831.html

AI进展被低估：科学家警告2026年或成临界点

科学家不再沉默：为何AI被大众严重低估？

指数曲线下的震撼：AI“独立工作”时长成倍增长

跨行业评测：AI已逼近人类专家水平

质疑声浮现：趋势真的可靠吗？

未来是替代，还是百倍增幅的协作？

瑞莎星睿O6 Android selinux修复教程（Radxa Orion O6系统安全加固指南）

以太网MAC层详解：数据链路层的核心

AI进展被低估：科学家警告2026年或成临界点

科学家不再沉默：为何AI被大众严重低估？

指数曲线下的震撼：AI“独立工作”时长成倍增长

跨行业评测：AI已逼近人类专家水平

质疑声浮现：趋势真的可靠吗？

未来是替代，还是百倍增幅的协作？

瑞莎星睿O6 Android selinux修复教程（Radxa Orion O6系统安全加固指南）

以太网MAC层详解：数据链路层的核心

相关文章