当前位置：首页 > 科技资讯 > 正文

英伟达200亿美元收购Groq技术授权，非GPU架构时代加速到来

主机测评网
科技资讯
2026-03-11
286

12月25日清晨，芯片巨头英伟达与初创公司Groq共同宣布，双方签署了一项“非排他性技术授权协议”。根据协议，英伟达将以200亿美元（约合人民币1400亿元）的现金对价，获得这家专注于“非GPU”架构企业的核心技术授权。

这笔交易创下了英伟达史上最大规模的投资纪录。英伟达动用了其现金及短期持有资本（总计606亿美元）的三分之一来完成此次收购，交易金额更是Groq此前估值的3倍之多，充分彰显了英伟达志在必得的决心。

这一激进举措的背后，与近期谷歌TPU等“非GPU架构”的强势崛起密切相关。被收购的Groq公司创始人兼CEO乔纳森·罗斯（Jonathan Ross），正是谷歌“TPU芯片”的核心缔造者。收购完成后，乔纳森及Groq的核心技术团队将集体加盟英伟达。

值得注意的是，Groq主攻的并非谷歌TPU同款架构，而是其独创的LPU——一种软件定义硬件的可重构数据流架构，该架构彻底消除了内存带宽的瓶颈。这种设计让LPU在处理大语言模型时，能够实现每秒数百个Token的“瞬时”输出，这是TPU和传统GPU难以企及的物理极限。该技术被业界及媒体誉为“高阶TPU”。甚至有业内人士断言，对于AI推理环节而言，Groq的可重构数据流架构可能是目前最优的技术路径，没有之一。

英伟达200亿美元收购Groq技术授权，非GPU架构时代加速到来英伟达 Groq 非GPU架构可重构数据流第1张

英伟达CEO黄仁勋（Jensen Huang）年初曾预测，AI推理需求将增长百倍。而英伟达在岁末这个节点“强势收编”专注于推理优化的低延迟芯片制造商Groq，或许已经间接承认了GPU并非AI推理工作的理想选择，更对外印证了非GPU架构在AI算力时代的重要性正日益凸显。

让模型性能暴涨40倍，新架构超越GPU

事实上，AI大模型热潮引发了算力需求暴涨。从文本生成、AI图像创作到AI视频合成，从大规模模型训练到高复杂度推理任务，大模型展现出令人惊叹的能力，这也让AI算力芯片在其中发挥着关键作用。

随着AI应用场景日益丰富、任务日趋复杂，AI芯片赛道早已告别零散玩家试水的阶段，形成了两大泾渭分明的技术流派：一派是以GPU为代表的共享式集中计算派（简称GPU派）；另一派则是以ASIC（谷歌TPU）、可重构数据流芯片（Groq LPU）为代表的非GPU派。

在这个风云际会的AI芯片江湖中，两大技术流派如同武林界的泰山北斗——少林与武当。

其中，谈到GPU派，门派宗师为芯片巨头英伟达。GPU架构就像精密的工业流水线，计算单元如同训练有素的工人，严格遵循CPU主管的指令，在冯·诺依曼架构的框架下高效运转。其最大优势在于数十年精心构筑的成熟软硬件生态，标准化程度高，用户几乎可以即插即用。然而，GPU架构芯片的性能提升越来越依赖于制程微缩的极限突破以及HBM带宽的艰难提升，如同攀登更加陡峭的山峰。

再来看非GPU派，包括ASIC（专用集成电路）和可重构数据流芯片，其中Groq LPU为可重构数据流领域的“得意门生”，其精髓在于硬件能够根据瞬息万变的计算任务动态重组，构建出高效专用通道，使得AI芯片兼具灵活性和专用集成电路的高效性优势。

早在2015年，可重构计算就被国际半导体技术路线图（ITRS）预见为“未来最具前景的芯片架构”，被学术界和产业界视为继CPU、FPGA和GPU之外的第四类通用计算芯片。

如今英伟达获得的Groq技术，并非基于GPU进行“小修小补”，而是直接融合已经被验证的强大的可重构数据流架构，从底层构建推理系统，旨在实现AI推理速度、规模、可靠性和成本效益的全面提升。

其中，被称为“高阶TPU”的Groq LPU采用软件定义硬件的数据流式并行架构，基于格罗方德（Global Foundries）的14nm工艺制造，芯片面积约为725平方毫米，不包含外部HBM存储。在处理过程中，权重、键值缓存 (KVCache) 和激活值等数据都保存在芯片内部，依赖于动态调度模式，可以让数百个核心同步激活张量模型，即可实现40倍于传统方案的推理性能，无需依赖先进制程即可突破能效瓶颈。

2025年7月，Moonshot AI（月之暗面）对外发布开源文本大模型Kimi K2，一度在国际权威榜单LMArena上登顶全球最强开源模型，紧追闭源顶尖模型。而发布后短短72小时，Groq基于高阶TPU架构的AI云算力系统，便将Kimi K2的性能提升了40倍，能效比超越英伟达GPU。

英伟达200亿美元收购Groq技术授权，非GPU架构时代加速到来英伟达 Groq 非GPU架构可重构数据流第2张

在互联规模层面，得益于Groq Compiler和Groq RealScale芯片间互连技术，Groq芯片构建了一个共享的资源架构集群，能够在MoE（混合专家）万亿参数模型上高效运行，提供所需的规模和速度，以跟上不断变化的AI模型格局，而不会出现输出速度瓶颈。而且，Groq针对近乎线性的扩展性进行了优化，相比于传统的GPU，14nm的Groq算力芯片可以从底层架构设计来应对AI工作负载扩展的挑战，能效比英伟达GPU最高可提升10倍。

可靠性层面，根据开放式大模型评估框架OpenBench数据显示，Groq与基于英伟达GPU的API提供商Together AI运行Kimi-K2-Instruct模型的MMLU实例，结果表明，Groq的准确率更高，在STEM、Social Sciences等方面均比肩GPU AI Infra能力。

英伟达200亿美元收购Groq技术授权，非GPU架构时代加速到来英伟达 Groq 非GPU架构可重构数据流第3张

更为关键的是，制造成本层面，用于制造Groq芯片的晶圆成本可能低于每片6000美元，相比之下，英伟达的H100芯片采用台积电5nm工艺，其晶圆成本接近每片16000美元。最终，Groq芯片和单卡成本均低于英伟达H100，这对于重算力推理的客户来说性价比更高。

以开源Mixtral 8x7b开源模型为例，Groq的吞吐量最高可达其他推理服务的4倍，Tokens处理速度比GPU更快，而价格却不到Mistral本身的三分之一。

英伟达200亿美元收购Groq技术授权，非GPU架构时代加速到来英伟达 Groq 非GPU架构可重构数据流第4张

总结来看，凭借“高阶TPU”的可重构数据流架构，Groq在推理速度、吞吐效率、成本优化等核心维度形成综合优势，全面对英伟达GPU构成竞争压力。

这或许也是英伟达急于收购Groq资产的核心原因。

展望下一步，随着这桩200亿美元“非典型并购”交易落锤，乔纳森和其他高管将共同助力英伟达构建AI工厂。

英伟达方面表示，Groq的低延迟芯片对输入的响应速度极快，将为英伟达的产品带来新的能力，帮助其开拓新的市场领域。“我们计划将Groq的低延迟处理器整合到英伟达的AI工厂架构中，以服务更广泛的AI推理和实时工作负载......虽然我们正在吸纳Groq的优秀人才并获得其知识产权许可，但我们并没有收购Groq公司。”英伟达CEO黄仁勋强调。

黄仁勋曾称，未来AI软件将全面具备推理能力，这将改变AI系统处理方式，“我们具备大幅降低AI成本的能力，而这一价值已成为行业共识。一旦实现成本的显著优化，我们便能在推理领域开展更深度的探索与创新。”

非GPU时代已来

当前，英伟达这一AI芯片市场的“霸主”似乎正迎来些许动摇，市场对英伟达的未来投下了新的审视目光。

据报道，英伟达的大客户Meta正考虑在其数据中心大规模采用谷歌自研的AI芯片——张量处理单元（TPU），并可能最早于明年开始租用。这一消息犹如一颗重磅炸弹，瞬间引爆市场。在11月25日交易中，英伟达股价一度暴跌6%，市值蒸发数千亿美元。

实际上，随着AI大模型的重心从训练走向推理和Agentic AI，英伟达GPU的缺陷日益突出。

首先，GPU并非为推理优化，它的设计初衷是高速并行计算，而不是以最低成本执行重复推理指令。

其次，GPU的灵活性意味着其硬件资源在实际推理场景中可能并非最优配置，导致单位能耗的效率不如ASIC。

最后，英伟达的定价权极高，云厂商往往需要以远高于制造成本的价格购入GPU，形成了强势垄断方案。

因此，在上述诸多背景下，谷歌、Meta、Cerebras Systems等公司都在发力非GPU技术。而英伟达最后选择大规模收购Groq公司，以避免“高阶TPU”架构的领导者Groq与英伟达GPU共同“混战”的局面。

早在2025年，谷歌推出第七代TPU Ironwood，不仅是TPU历史上第一款最强推理芯片，而且在架构、规模、可靠性、网络与软件系统等AI基础设施技术层面都进行了重构，在多项关键指标上首次与英伟达Blackwell系列实现正面交锋。

单芯片层面，Ironwood的FP8稠密算力达到4.6 petaFLOPS，略高于Nvidia B200的4.5 petaFLOPS，已跻身全球旗舰加速器第一梯队。更重要的是，一个Ironwood Pod可集成9216颗芯片，构成一个超节点，FP8峰值性能超过42.5 exaFLOPS，在特定FP8负载下，该Pod性能相当于最接近竞品系统的118倍。

这不仅是单芯片差距，而且面对英伟达，谷歌TPU在系统架构、拓扑设计、集群扩展能力等层面获得碾压式胜利。

知名投行花旗认为，英伟达短期地位稳固，但同时预测其AI芯片市场份额将从90%逐步下滑至2028年的81%。

从投资视角来看，英伟达以200亿美元收购Groq的交易，不仅创下其自身史上规模最大的并购纪录，更堪称AI算力赛道的重磅布局。这笔交易的“重量级”显而易见：200亿美元相当于英伟达手头近三分之一的资金储备，如此罕见的大手笔，也让市场戏称其是“用巨额资金买下核心技术IP”。

这背后，恰恰印证了可重构数据流架构的巨大价值——“高阶TPU”技术不仅是Groq的核心竞争力，更是英伟达不惜重金补齐非GPU赛道短板、巩固算力领域主导地位的关键所在。

据报道，另一家可重构芯片设计公司SambaNova也迎来与Groq相似的收购局面。据悉，英特尔正在就收购美国AI芯片独角兽SambaNova进行初步谈判，SambaNova公司估值达到50亿美元。

展望未来，非GPU赛道前景广阔。

据国际数据公司（IDC）的最新数据显示，预计2025年，AI算力芯片市场规模超过1285亿美元，同比增长47.1%，预计2030年AI芯片市场规模达4138亿美元，其中，非GPU架构芯片市场规模占比超过21%，而推理芯片占比提升至65%。

英伟达200亿美元收购Groq技术授权，非GPU架构时代加速到来英伟达 Groq 非GPU架构可重构数据流第5张

反观国内市场，IDC数据统计显示，2024年，中国加速服务器市场规模达到221亿美元，同比增长134%。其中，非GPU加速服务器高速增长，占比超过30%。IDC预测，到2029年，中国非GPU服务器市场规模占比将接近50%。其中国内ASIC以寒武纪、昆仑芯为代表，可重构数据流则是以清微智能作为这个赛道的标志性企业。

2026，GPU，ASIC，可重构数据流，谁将撑起全球AI算力产业的半壁江山还是三分天下，我们拭目以待。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。