当前位置:首页 > 科技资讯 > 正文

AGI不会到来:物理法则锁死的智能上限

通用人工智能真的会如期而至吗?

在人工智能领域,这个问题被反复提及,但始终缺乏明确且令人信服的答案。 

近日,来自西雅图艾伦人工智能研究所(AI2)的研究员蒂姆·德特默斯(Tim Dettmers)发表了一篇标题直截了当的文章——《为什么通用人工智能永远不会到来?》。 

AGI不会到来:物理法则锁死的智能上限 AGI 物理限制 规模定律 硬件瓶颈 第1张

蒂姆·德特默斯 

德特默斯在文中提出了一个长期被忽视却至关重要的前提: 

计算并非纯粹的抽象思维,它本质上完全受物理定律的支配。

这意味着,智能的进步并非单纯的“想象空间”拓展,而必须面对能量、带宽、存储、制造工艺以及成本等物理层面的硬性约束。 

德特默斯指出,当前业界对AGI的预期普遍过于乐观,其核心原因在于: 

大多数讨论仅局限于模型架构、参数规模和算法创新,却忽略了支撑这一切的物理基础正在触及天花板。

德特默斯首次从物理约束的视角,系统阐述了AGI所面临的一系列无法回避的现实挑战。这些见解也有助于我们更深刻地理解当前AI行业的发展态势。 

他在文章中归纳了以下几个关键判断: 

1)Transformer架构的崛起并非巧合,它是在现有物理限制下近乎最优的工程实现,通过调整架构所能获取的额外收益正在急剧缩减。 

2)当前众多所谓的“创新”,本质上仍是对现有框架的渐进式优化,很难实现结构性的突破。 

3)过去AI领域的规模定律很大程度上得益于GPU性能的持续提升,然而GPU的“性能红利”正逐步耗尽。 

4)真正的AGI不仅涉及认知能力,更需要在现实世界中完成具有经济价值的任务,而这一领域恰恰受物理法则和成本因素的制约最为显著。 

以下内容编译自蒂姆·德特默斯的原文,内容有所精简。 

01 物理天花板:AGI的宿命

在围绕AGI、超级智能以及规模法则的讨论中,特别是在硅谷,有一个长期被忽略的事实:这些探讨大多停留在理论层面,而忽视了物理世界的现实约束。

许多人谈论通用人工智能和超级智能时,倾向于将其视为纯粹的抽象理念,如同进行哲学思想实验般推演未来:模型参数能否继续扩大?算力是否可以无限堆叠?智能是否能实现指数级的自我进化? 

然而这种思维方式,本身就立足于一个根本性的误解——计算并非抽象概念,而是物理实体。 

要理解这一点,首先需要认识到一个基本事实:高效计算始终在寻求两种操作的平衡。 

其一,将分散的信息汇聚到执行计算的位置; 

其二,将局部计算的结果重新整合,形成新的信息。 

关键问题在于,计算本身成本低廉,而信息传输则代价高昂。 

随着晶体管尺寸不断缩小,单次计算的开销持续降低。然而,信息在芯片内部以及不同存储层级间的迁移成本,却会随距离呈平方级增长。这是无法回避的物理定律。 

缓存层级结构便是最直观的例证。 

L1、L2、L3缓存虽采用相同工艺,但性能表现天差地别:L1速度最快、容量最小;L3容量最大、速度却慢得多。原因很简单:距离计算核心越远,访问所需开销就越大。 

由此可得出两个重要结论: 

第一,缓存容量越大,访问速度必然越慢; 

第二,随着制程工艺的演进,芯片上“计算能力”的成本不断下降,但“内存”和“带宽”的成本却不降反升。 

在当今的高端芯片设计中,实际用于“计算”的逻辑单元仅占极小比例。绝大部分硅片面积被用于存储、互连和数据传输通道。 

理论上,我们当然可以设计出一颗算力高达10 exaflops的芯片,但倘若缺乏与之匹配的内存系统,这些算力大多将处于闲置状态,沦为“无意义的浮点运算”。 

这一点,在诸多关于算力的宏大叙事中往往被刻意忽略。 

将这一现实映射到AI架构上,便会发现: 

Transformer的成功并非算法上的偶然,而是在当前物理约束条件下近乎最优的工程抉择。 

其核心计算模式,恰好契合了当前硬件环境下最具“性价比”的两种操作: 

一类是局部计算(如MLP层); 

另一类是受限形式的全局信息聚合(即注意力机制)。 

Transformer当然并非“理论上最优”的智能架构,但在现实硬件条件下,它或许已非常接近物理意义上的最优解。 

这意味着,即便继续在Transformer架构上进行优化,每一步所带来的提升也将愈发有限。 

类似的限制不仅存在于硅基计算中,也同样体现在人类自身。 

神经科学研究早已揭示:一个物种所能拥有的神经元数量,几乎可由其长期稳定的能量摄入精确推算。人类借助烹饪技术,突破了原始能量获取的瓶颈,但也仅限于此。 

人类的智力并非无限扩张的产物,而是恰好被卡在能量、新陈代谢与繁衍之间的平衡点上。 

倘若人类的大脑再大一些,问题并非在于头骨或产道,而在于能量供应: 

我们将无法在孕期同时维系两个高能耗大脑的生存。这意味着,人类智能本身便是被能量约束锁定的物理上限。 

数字计算也正朝着类似的边界迈进。 

算力仍将增长,工程将持续优化,但将这类变化解读为“智能可以无限外推”,本身就是一种脱离物理现实的幻想。 

02 易摘的果实已所剩无几

几乎所有成熟领域的研究,最终都会归结到同一个结论: 

线性的进展,往往需要指数级的资源投入。 

通俗而言:若想让一个系统持续变得更精确、更高效、更强大,那么每前进一步,所需付出的代价都将远高于前一步。 

背后的原因并不复杂。在物理世界中,任何有效成果都依赖于资源在时间和空间上的集中。要获得线性规模的效果,至少需要线性规模的资源。 

然而随着系统规模扩大,这些资源会在空间、时间和能量上产生竞争,协同效率持续降低,最终呈现为:投入快速增长,产出增长却日益减缓。 

物理世界如此,思想世界亦然。 

若两个想法完全独立,它们的叠加效应或许可以倍增;但一旦想法之间存在依存关系,边际收益便会迅速递减。 

绝大多数“新想法”并非凭空产生,而是基于现有框架的改进。即便这种改进再巧妙,其所带来的提升通常也是渐进式的。 

当一个领域足够成熟时,这种现象会愈发明显。 

即便你提出了看似“完全不同”的方法,它们往往仍在解决同一个核心问题。 

例如,看似路径迥异的状态空间模型与Transformer,本质上都在探讨“如何高效建模长程依赖关系”这一命题。 

在此背景下,任何针对同一机制的优化,都只能带来有限的收益。 

这种约束在物理学中表现得最为严酷。一位顶尖理论物理学家曾如此形容这一处境: 

如果一个想法被禁锢在同一子领域内,几乎不可能产生真正有意义的突破。因为能想到的,早已被前人想过;而那些看似天马行空的创意,往往只是对既有规则的重新排列,并未触及根本问题。 

实验物理学则从另一角度揭示了这种边界。 

为验证更深层次的物理规律,我们不得不建造日益昂贵、日益复杂的实验装置。大型强子对撞机耗资数十亿美元,但其带来的更多是对理论的证伪,而非明确的新答案。 

这未必意味着我们“不够聪明”,而更可能意味着:某些问题本身,已被资源和复杂度锁死在我们目前无法触及的层级之外。 

最终,我们一次次回到同一个现实判断: 

当一个系统进入成熟阶段后,要想获得线性的改进,往往必须付出指数级的资源代价。 

这既是科学研究的边界,也是技术、算力与智能扩展所共同面临的硬性约束。 

03 GPU的潜力已被充分挖掘

另一个影响深远的误解在于:人们默认硬件会持续线性进步。

过去十多年,AI领域的几次关键飞跃,确实都与GPU性能的提升同步。 

AlexNet的成功,本质上得益于CUDA与GPU使得卷积网络得以高效运行。此后,无论是更深的CNN,还是Transformer的大规模训练,几乎都依赖于两个变量:单卡性能提升与GPU数量的增加。 

于是,一个看似自然的叙事便形成了:GPU愈发强大,推动AI愈发强大。 

但问题恰恰在于此。GPU并非在“持续进步”,而是在逐步逼近物理与工程的极限。 

回顾历史,我们会发现GPU真正快速提升的阶段,大约在2018年左右便已终结。 

此后我们所看到的“进步”,更多是通过一系列一次性、不可复制的工程红利实现的: 

最初是FP16的引入,随后是Tensor Core(或类似的矩阵加速单元)的加入,接着是HBM高带宽内存的应用,再后来是更为激进的数据传输机制(如TMA),以及INT8、INT4甚至更低比特精度的探索。 

这些手段,本质上都在做同一件事:以精度换取吞吐量,用工程技巧挖掘极限。 

问题在于,这条道路是有限的。 

从计算物理与信息论的角度来看,在特定的块大小、访存模式与调度结构下,最优的数据类型与计算布局是可以计算得出的。 

这些结论并不神秘,也早已被学术论文系统性地探讨过。如今的硬件厂商,实际上已将这些“可挖掘的空间”基本耗尽。 

继续前行,不再是“免费的性能提升”,而只剩下取舍: 

要么牺牲计算效率,换取更小的内存占用; 

要么牺牲内存效率,换取更高的计算吞吐量。 

无论选择哪条路,都无法再带来数量级上的提升。这并不意味着硬件已“停止进化”,而是意味着: 

硬件已不再是那个能够持续解决一切问题的万能变量。 

在此背景下,许多人的目光开始转向机架级、数据中心级的系统优化。 

这一步确实至关重要,例如高效的KV缓存传输、节点间通信、内存拓扑设计,均是当前推理成本的关键瓶颈。 

但这里同样存在现实的限制。 

从系统工程的角度审视,真正高效的设计空间其实极为有限。你可以在实现细节上做到极致,但在结构层面,通常仅有一到两种接近最优的方案。这些方案难度高、工程量大,却并不神秘,也不存在所谓的“颠覆性架构”。 

这也是为何无论是OpenAI,还是其他前沿实验室,在基础设施层面更多展现的是执行力与规模,而非不可复制的系统优势。 

即便通过机架级或数据中心级优化取得领先,这种优势也往往是短暂的。 

随着行业跟进,这些改进将迅速扩散、被吸收。或许在2026年,亦或在2027年,这部分红利便会基本耗尽。 

归根结底,这一切指向同一个结论: 

AI发展的下一阶段,不能再寄希望于“硬件会持续解决所有问题”。 

GPU曾是推动智能跃升的核心杠杆,但这一杠杆,正逐渐失去其效力。 

04 Gemini3:一个转折点的信号

我近期在推特上分享了一个观点:Gemini 3的推出,或许标志着当前这轮AI发展正接近阶段性瓶颈。

不少回复认为我过于悲观,简单概括就是:“规模效应不是仍在发挥作用吗?” 

问题在于,这里真正需要探讨的,并非“规模效应是否有用”,而是规模效应还能持续多久、以何种代价继续生效。 

真正发生改变的是成本结构。 

过去十多年,我们之所以能持续扩大模型规模,并非因为扩展本身变得“更高效”,而是由于GPU性能的指数级提升,抵消了扩展所需的指数级资源投入。 

换言之,过去是线性成本换取线性回报。如今则演变为指数级成本,换来勉强的线性回报。 

这本身并非不可接受,但它清晰地划定了一条边界:规模扩展已不再是“可以无限延伸”的策略,而是一种正快速逼近物理极限的手段。 

依我之见,我们真正剩余的规模扩展窗口,可能仅有一至两年。 

到2025年,单纯依赖规模扩展所带来的提升已极为有限;若2026、2027年仍无新的研究方向或软件层面的突破,那么规模扩展在物理层面将变得不可持续。 

更为微妙的问题在于: 

当规模扩展的边际收益开始低于研究与软件创新所带来的收益时,硬件便将从资产转变为负担。 

这并非假设,而是已经开始显现的现实信号。 

诸如MoonshotAI、Z.ai等公司已证明:无需海量算力,也能达到接近前沿模型的能力水平。 

就个人体验而言,我甚至更欣赏Kimi K2的思维方式,而非Sonnet 4.5在编码上的“蛮力感”。这本身便说明:能力提升并不完全等同于规模扩张。 

若这些小团队能在研究或工程层面进一步突破规模限制,他们完全有可能在不拥有庞大基础设施的情况下,打造出最具竞争力的模型。 

在推理侧,他们甚至可以转向华为昇腾等替代硬件——这些芯片在推理性能上已足够出色。 

这也引出了规模扩展基础设施所面临的另一个系统性风险。 

当前,大模型推理效率高度依赖“规模本身”:唯有当GPU数量足够多、用户请求足够密集时,计算、网络通信与KV缓存才能充分重叠,从而实现接近理论最优的利用率。 

这意味着,唯有拥有庞大用户规模的公司,才能真正“用好”这些昂贵的前沿模型。 

这也是为何,开放权重模型目前尚未在推理成本上彻底改变格局——并非模型本身不行,而是部署成本需要一个同样庞大的用户群来分摊。 

但关键点在于:这是一个软件问题,而非物理问题。 

vLLM、SGLang等推理框架,主要针对前沿实验室的“超大规模部署”场景;在中小规模部署时,它们无法提供同等级别的效率。 

一旦出现更适合中等规模的推理技术栈,局面将截然不同。 

若有人能让一个3000亿参数级别的模型,在较小规模下也能接近OpenAI或Anthropic的推理效率,那么前沿实验室在基础设施上的护城河,可能在极短时间内消失。 

更何况,还有两个变量正同时逼近: 

其一,小模型能力持续增强(如GLM 4.6等趋势); 

其二,AI应用日趋垂直化、专业化,对“通用前沿模型”的依赖正逐渐减弱。 

在此情形下,部署复杂度降低、开源推理栈日趋成熟、硬件选择多样化,将促使整个系统迅速逼近物理最优解。 

而一旦接近物理最优,规模优势的溢价便将快速蒸发。 

若规模扩展速度放缓,那么以下三件事中的任何一件,都可能短期内显著削弱AI基础设施的价值: 

研究或软件层面的重大突破 

成熟且强大的开放权重推理技术栈 

向其他硬件平台的大规模迁移 

从这个角度看,当前趋势对前沿实验室并不友好。因为真正的竞争,很可能即将回归:研究深度、工程效率,以及对物理现实的敬畏。 

05 缺乏实体的AGI:一个伪命题

我留意到一个频繁出现的现象: 

当你询问硅谷人士“AGI何时到来”,他们往往会给出相对乐观的时间表——数年之内、影响深远、范式颠覆; 

但当你追问“AGI究竟是什么”,他们的定义几乎总是局限于认知层面,既不涵盖体力劳动,也鲜少讨论资源投入与物理约束。 

这是一个关键性的缺失。 

若我们严格定义“通用人工智能”为能够完成几乎所有人类任务的系统,那么它就不可能仅存在于文本框或服务器之中。 

真正的AGI,必然需要具备在现实世界中执行具有经济价值工作的能力——即体力劳动。 

而恰恰是这一部分,构成了人类经济活动中规模最大、最为复杂、也最受物理约束的领域。 

从现实来看,机器人技术并未走向“通用化”,而是呈现出高度分化。 

在受控环境中,如工厂,专用自动化系统已极其成熟。中国的“工厂”已证明: 

在明确流程、固定场景下,专用机器人在效率、精度与成本上远优于任何通用方案。这类系统无需“通用智能”,它们依赖的是工程优化与流程确定性。 

而在非受控环境中,许多看似“智能”的机器人任务,往往在经济上并不可行。 

例如给T恤缝制袖子、在复杂环境中折叠衣物,这些任务技术上困难、数据采集成本极高,但在现实中人类完成它们所需的时间与成本却极低。 

即便机器人在数年后能够完成这些动作,其产出质量、成本结构与维护复杂度,也很难形成真正的经济优势。 

换言之,机器人领域的问题并非主要在于“能否做到”,而在于“是否值得做”。 

更重要的是,机器人学习的规模扩展规律,与大语言模型高度相似,却面临更为严苛的现实约束。物理世界的数据采集成本高昂、反馈稀疏、状态空间巨大,这决定了其扩展速度远慢于纯数字环境。 

其结果是,自动化在工厂中高度成功,而在大多数日常体力劳动中,经济回报极为有限。 

这也引出了“超级智能”叙事的根本性问题。 

超级智能的核心假设是:一旦系统在智能水平上超越人类,便能不断自我改进,最终形成失控式跃迁。 

这一观点源于牛津哲学传统,并在硅谷被进一步放大。但它忽略了一个基本事实——智能并非抽象存在,而是嵌入物理系统中的能力。 

任何系统的改进都需要资源。即便一个系统能更高效地利用资源,它依然无法逃脱规模法则的约束: 

线性改进,往往需要指数级投入。通过引入一次性优化(如新的数据类型、专用硬件单元)确实可以暂时绕开收益递减,但这些路径本身也会迅速耗尽。 

因此,更为合理的理解是:所谓“超级智能”并不会无限拓展能力边界,而仅仅是填补现有能力的空白。这种填补具有价值,但它带来的是渐进式改进,而非指数级失控。 

类似的误判也出现在对硬件进步的预期之中。 

许多人假设,若智能足够强大,它便能加速GPU、内存与系统架构的演进。 

但现实是,GPU的核心性能提升已接近尾声。未来的改进更多来自封装、互连、HBM演进与机架级工程优化,而这些均是高度资本密集、周期漫长的制造问题,并不存在“凭更聪明便能解决”的捷径。 

Transformer架构本身也已接近物理最优。大规模推理部署,更多是成熟的工程问题,而非需要突破性创造力的研究领域。超级智能无法显著改写这些基本约束。 

从这个角度看,超级智能或许能帮助AI更快普及,但它并非普及的决定性因素。真正限制AI经济价值释放的,从来不是能力上限,而是落地、部署与应用结构。 

因此,任何将“超级智能”作为核心目标的组织,都可能在现实中遭遇持续的摩擦:高成本、低回报、难以转化。相反,那些专注于降低部署门槛、推动经济普及、融入真实流程的参与者,更可能在长期竞争中胜出。 

归根结底,人们常设想的AGI并不会以神话般的方式降临。它忽视了计算的物理约束、规模进步的真实成本,以及我们已经触及的工程极限。 

超级智能之所以被反复讨论,并非因其理论上的稳固,而是因其在回音室中构建了一种极具吸引力的叙事。 

而AI的真实未来,将由经济可行性、实际应用以及在物理限制下的持续改进共同塑造。越早接受这一现实,我们便能越早将注意力从幻想转向那些真正能提升生产力与人类福祉的系统。