当前位置:首页 > 科技资讯 > 正文

AI基础设施大辩论:GPU、ASIC与下一代架构的颠覆前夜

AI基础设施大辩论:GPU、ASIC与下一代架构的颠覆前夜 GPU  ASIC Transformer架构 开源模型 第1张

谷歌Gemini 3的问世在资本市场掀起了一场剧烈震荡,投资者情绪犹如跷跷板般此消彼长。

凭借最新旗舰模型的惊艳表现,谷歌市值一度飙升逾5000亿美元;而与此同时,算力巨头英伟达却遭遇滑铁卢,市值蒸发超过6000亿美元。

这场巨大的市值分化似乎在传递一个信号:当TPU驱动Gemini 3跑出顶尖效果,甚至Meta也被传出考虑采购TPU时,人们不禁要问:由通用GPU构建的算力壁垒是否正被撬动?硬件技术路线是否正从GPU的通用架构向ASIC专用芯片加速迁移?

在腾讯科技2025 Hi Tech Day上,英诺天使基金合伙人王晟将这一热点话题抛给了沐曦股份、硅基流动及阶跃星辰等国产模型与算力基础设施的代表,围绕AGI底层硬件“稳态还是变态”展开了一场深度交锋。

沐曦股份孙国梁认为,GPU仍将长期占据主导地位,并直言:“华尔街的做空有时仅仅是市场博弈的砍价手段。”

孙国梁指出,GPU与ASIC的并存格局已持续数十年,属于高度成熟的产业生态。他强调,当前模型仍处快速迭代期,GPU的通用性恰恰是不可替代的核心优势。“专用芯片很难灵活适配千变万化的通用场景。”

谈及开源与闭源之争,硅基流动胡健将其比作“老二、老三”的生存策略。“正如安卓对抗iOS,DeepSeek横空出世后市场迅速跟进,这是一种竞争倒逼下的必然趋势。”

胡健认为,若模型完全闭源,智能能力将集中于少数巨头手中,企业客户将被迫承受高额成本和供应链风险,开源生态因此拥有持久的生命力。

而在算法演进层面,阶跃星辰首席科学家张祥雨投下一枚重磅观点:现有Transformer架构根本无法支撑真正的下一代Agent。

张祥雨透露,实测表明,随着上下文长度增加,模型的推理能力呈断崖式下滑,即“智商掉落”现象。他认为,对于追求无限上下文的通用Agent,Transformer固有的单向信息流机制构成根本性瓶颈。阶跃星辰的前沿实验显示,未来架构很可能转向“Non-Linear RNN”(非线性循环神经网络)方向。

嘉宾核心观点摘录:

孙国梁(沐曦股份高级副总裁)

“当前AI更多是靠工程学反哺基础科学。在数学原理与脑科学尚未突破前,我们需要GPU承载海量工程试错。”

胡健(硅基流动联合创始人、首席产品官)

“不开源的模型等于把智能锁进少数企业的保险箱,客户被迫依附于巨头,并为此支付昂贵的溢价。”

张祥雨(阶跃星辰首席科学家)

“Transformer远不足以承载Agent的终极形态。真正的瓶颈不在于算力消耗,而在于‘越长的上下文,越低的智商’——文本量翻倍,模型理解能力反而打折。”

以下为圆桌精编实录,在不违背原意前提下略有删节与润色

01

万亿市值反向割差——GPU堡垒是否坚不可摧?

王晟(英诺天使基金合伙人、北京前沿国际人工智能研究院理事长):先来聊聊最近最具爆炸性的话题。Gemini 3发布后谷歌市值猛增5000多亿美元,而英伟达却跌去6000多亿。我想请国梁从国产GPU领军者的视角,剖析这一现象背后的逻辑。硬件范式会否大规模向TPU/NPU等专用芯片迁移?二者是完全替代还是长期共存?

孙国梁:架构本身并无绝对的优劣之分,关键在于应用场景。若论稳态或变态,GPU与ASIC早在数十年前就已形成稳定共存的“双稳态”格局。ASIC家族中的BPU、APU、VPU、DSP等各守一方领地,皆有其不可替代的优势。但在当下模型架构月月新、周周变的超速迭代期,GPU的通用性成为最大的护城河。专用芯片若想覆盖爆炸式增长的多元场景,往往力不从心。模型演进远未收敛,未来很长时间内高速迭代仍将是常态。此外,终端场景的极度碎片化也决定了GPU与ASIC会长期并行,但通用GPU在泛化适配能力上优势明显。至于英伟达的市值波动,这未尝不是华尔街惯用的议价策略——在此之前市场已用真金白银将英伟达推上王座,恰恰证明了通用算力在现阶段不可撼动的地位。

02

中间层的黏合剂——模型生态正在收敛吗?

王晟:胡健,硅基流动处在模型与算力的交汇点,你们的工程压力是不是成倍增长?算子重构、编译器适配、计算图优化……这些工作量是否已到极限?另外,从实际客户负载看,模型是在分化还是在聚拢?

胡健:硅基流动目前已搭建自有云服务平台,与国内多数AI Infra厂商不同,我们大量部署了国产芯片(如摩尔线程、沐曦等),并真实服务于企业客户。从流量统计看,模型调用呈现清晰的“二八分布”。虽然每周都有新模型冒出,但绝大多数推理请求集中在DeepSeek、千问、Kimi、GLM等头部模型上。模型结构本身正逐步收敛至稳定态,例如DeepSeek采用的MLA、MQA等变体,底层依然是Transformer框架。这对国产芯片是重大利好——如果场景仍如数年前那般发散,CUDA凭借十余年积累的软件栈将难以逾越;而今天结构相对收敛,我们便可集中火力,帮助国产芯片在端到端推理层面实现对标英伟达同规规格产品的目标。这其中约70%的工作是高度标准化的,如FP8量化、PD分离、KVCache复用等。剩余30%则需针对不同芯片的短板(如某些算子性能弱、通信瓶颈)进行算子融合或通信库专项优化。总体来看,模型架构已步入收敛通道,优化方案的规模复用价值极高。

03

算法的“变异”前夜——Transformer是AGI的终极答案吗?

王晟:祥雨作为算法领域的探索者,我想直接请教:Transformer是否已是通往AGI的唯一路径?学界近期涌现的RetNet、Mamba等线性注意力范式,究竟具备多大潜力?

张祥雨:先给一个直接判断:目前模型架构的确显现出趋同特征,但我认为我们正处于一场重大范式迁移的前夜。我的核心观点是:Transformer根本无法承载下一代Agent的需求,尤其在迈向通用智能体时代。先解释为何当前会趋同——各种Linear Attention、Sparse Attention本质上只是效率层面的修补,并未突破Transformer的建模能力上限。更重要的是,我们观察到一个严重副作用:长上下文的真正挑战并非计算复杂度,而是模型智商随上下文长度增加急剧衰减。通用Agent面对的是无限长的信息流——它必须将毕生“经历”压缩在上下文中。但现行Transformer,无论宣称支持多少Token,实测至8-12万Token时性能已基本不可用;即便GPT-5有所改善,其退化趋势依然存在。根源在于Transformer的信息通路是单向的,信息仅能从第L-1层流向第L层,而无论上下文多长,层数L无法同比扩展。人类记忆具备极强的压缩与非线性整合能力,我此刻所说的每句话都是毕生见闻的函数,如此复杂的映射绝不可能由恒定深度的神经网络完成。

王晟:所以你们的解决方向是什么?已有阶段性成果吗?

张祥雨:我们已在部分小规模实验中观察到非常积极的信号。未来的架构很可能是一个短窗口Transformer(负责短期记忆)叠加一个巨大的非线性RNN(负责情景记忆)。当然,这会给系统并行效率带来巨大挑战,必须走软硬件协同设计的路径。

04

物理边界——可控核聚变与万卡集群的加速赛

主持人/王晟:祥雨的观点极富冲击力,容我慢慢消化。时间所限,快速切换到能源议题——我们投资了星环聚能,因此感触尤深。自氢弹试验成功后,人类对“可控核聚变”的追逐已持续80余年,过去永远说“还需50年”,但近两三年局面突变。乐观派认为10-15年可成,谨慎派也说20年内。这一跃变与AI密不可分。托卡马克的两大难题:第一,如何获得约束等离子体的超强磁场,这依赖材料突破,而AI for Science正让高温超导、室温超导的研发周期大幅压缩;第二,等离子体的实时控制,装置内部数亿度,外部密布线圈,传统控制代码复杂到几乎无解,而AI模拟与强化学习让“黑箱”控制显现曙光。若不解决能源瓶颈,人类文明将触顶。接下来聚焦网络。我想听听各位在真实大规模训练中——不是实验室demo,是真正出成果的集群——实际规模已达多少卡?另外,英伟达在网络层面布下重兵:NVLink、NVLink Switch、InfiniBand层层防御。我们自主网络目前覆盖了哪些层级?

孙国梁:AI Infra的最大挑战是厘清产品本质。客户需要的从来不是一张卡,而是能支撑大规模训练、推理、服务的通用算力系统。我们在全国已部署数千卡规模的集群,兼容传统CNN、MoE乃至非Transformer架构的模型训练。关于能源,我再补充一点:如果未来算力瓶颈真要靠能源破局,中国反而手握巨大优势。核心逻辑在于:当前AI本质上属于工程学,其根基是数学,数学的源头又是脑科学与生物学。而这些基础科学尚未迎来重大突破,所以我们只能以工程学的“暴力试错”向前拱。恰恰是这种工程尝试,正在反向牵引基础科学的突破。国产算力、清洁能源与开源生态的协同演进,好戏还在后面。

05

开源VS闭源:生存博弈的终局

王晟:下一个问题给胡健。硅基流动平台上有大量开源模型,眼下美国巨头纷纷转向闭源,而中国厂商则扛起开源大旗。未来开源能否真正与闭源分庭抗礼?如果最强模型始终闭源,你们的业务空间会被挤压吗?

胡健:现在回答这个问题轻松多了。创业初期,我们曾被投资人反复拷问。当时我们便坚信两点:开源一定会成为主流,推理侧将是最大战场。开源与闭源的胜负手取决于两个维度:第一是竞争格局。通常处于第二、第三梯队的玩家为阻止头部通吃,必须开源,以此聚合生态、逆转局势。安卓对抗iOS就是教科书案例。DeepSeek引爆市场后,所有人都被迫跟进,这是低成本竞争倒逼的结果。第二是需求刚性。若智能被极少数公司垄断,企业客户必然面临高溢价与数据主权风险。企业独有的业务数据无法放心交给闭源黑盒,出于隐私和竞争壁垒考量,需求端会持续为开源模型投票。正如安卓通过广告与服务构建了商业闭环,开源模型未来同样能找到可持续的盈利模式。

06

端侧AGI萌芽:从推理到自主学习的跨越

王晟:祥雨,阶跃近期发布了面向安卓手机的Agent:GELab-Zero。这个项目目前是探索性研究,还是已经具备产业落地的可行性?

张祥雨:此刻推出GELab-Zero,是因为它是智能演进的必由之路。我习惯用二维坐标系衡量智能化水平:横轴是“智能能力进化”:第一代ChatBot,核心算法是NTP;第二代Reasoner,核心算法是RLVR;第三代Agent,算法内核应该是自主在线学习。我擅自补充一句:Transformer架构在此必然迎来一次大革新,这属于分层记忆建模的范畴。而自主在线学习还需解决环境探索、反馈利用及模型参数实时更新等难题。纵轴是“模态扩展”:从语言、语音,到视觉多模态,最终是具身智能。在具身与多模态之间,夹着一个极佳的演练场——虚拟世界的具身,即像人一样操作手机GUI。它比物理具身简单,又远复杂于纯文本交互。GELab-Zero的特色在于:它是一个小模型,通过蒸馏大视觉-语言模型的能力,并搭建强化学习环境,使其能在真实手机APP中自主探索。更重要的是,我们实现了端云协同训练:终端模型在必要时唤醒云端大模型,二者通过强化学习轨迹联合反传梯度。这是极具创新性的技术路径。

07

“老CV人”的反击:Diffusion会被颠覆吗?

王晟:延续刚才的话题。你的老战友何恺明近期连续抛出重磅工作,先是JiT,主张直接预测图像而非去噪;又有iMF。这些方法能否超越Diffusion?

张祥雨:公允地说,这些工作仍是在Diffusion框架上打补丁,尚未构成“颠覆”。恺明之所以频繁在生成模型基础方向发力,根本原因是Diffusion这套范式在“老CV人”眼中是最不Make Sense的——从一个分布出发,加噪再逐步去噪,整个过程不含任何语义对齐。已有大量工作证明,在Diffusion中引入语义引导可显著提升效果,这反过来说明原框架确有缺陷。深度学习最推崇“端到端”——从输入直接一步映射到结果。但长期以来模型“单步推理能力”不足。好比语言模型引入CoT(思维链),Diffusion的加噪-去噪步骤也可视为一种CoT。然而,这个CoT与语言CoT截然不同,它不符合人脑生成图像的认知过程,是典型的“Bad CoT Pattern”。尽管直觉上不合理,目前尚无成熟方案能彻底移除加噪-去噪流程。自回归图像生成同样面临语义缺失和单步推理受限。因此,当前研究一方面致力于给Diffusion注入语义(如语义对齐、生成理解一体化训练),另一方面则试图简化框架,减少人工引入的非语义元素——恺明组近作多属后者。此外,也有学者尝试直接提升模型单步推理能力,例如将循环Transformer等潜在推理工具引入图像生成。

王晟:再回到你刚才强调的记忆问题——为什么不能把记忆完全外挂?既然长上下文导致智商下降,可否训练一个专用记忆抽取模型,再将精炼后的记忆馈入大模型?

张祥雨:当然可以,这就像人类在草稿纸上演算,属于外存。但我们的核心目标是建模智能体的内存,因为记忆是智能的核心组件之一。人脑记忆是极其复杂且分层的:从感知记忆(瞬时)、工作记忆(短期)到长期记忆。其中短期记忆的无损、全连接特性,当前Transformer已能较好模拟。真正的瓶颈在于长期记忆——尤其是情景记忆的建模,这涉及快速权重更新机制;以及语义记忆,它与慢速权重更新相关,本质上靠模型参数固化知识,难点在于如何在线更新。谷歌最近有一篇论文正是在探索Online Learning参数更新,这是迈向自主学习非常必要的一步。

王晟:今天这场对话精准诠释了“稳态还是变态”的主题。我们看到,每家企业都有稳固的基本盘,同时也在积极拥抱变革。Transformer未必是终局,GPU仍在进化,能源与工程瓶颈才刚刚打开。AGI这场长跑或许才刚鸣枪,真正的蝴蝶效应,还在远方酝酿。