当前位置:首页 > 科技资讯 > 正文

英伟达200亿布局Groq,LPU能否成AI新宠?

Jay 发自 凹非寺量子位 | 公众号 QbitAI

老黄出手,谷歌TPU威胁刚至,便以钞能力回应。

200亿美元投入,只为拉拢炙手可热的「铲子新工厂」——Groq

这标志着芯片巨头在AI新时代的重大布局,同时也反映出老黄对新芯片范式的担忧。

那么,Groq究竟能为英伟达带来什么?

知名科技投资人Gavin Baker对此发表了观点。

他的技术剖析,直指英伟达帝国防守最薄弱的地方——推理

推理方面,Groq LPU的速度远超GPU、TPU,以及目前所见的任何ASIC。

英伟达200亿布局Groq,LPU能否成AI新宠? 英伟达 Groq LPU AI芯片 第1张

Gavin Baker

这一观点获得大量网友点赞:

GPU架构无法满足推理市场低延迟需求,片外HBM显存速度太拖后腿。

英伟达200亿布局Groq,LPU能否成AI新宠? 英伟达 Groq LPU AI芯片 第2张

网友观点

也有网友指出,LPU所采用的SRAM,或许并不能胜任长文本decode。

对此,Gavin认为英伟达可以通过产品「混搭」的方式解决。

英伟达200亿布局Groq,LPU能否成AI新宠? 英伟达 Groq LPU AI芯片 第3张

Gavin Baker

具体来看——

Groq:英伟达斥巨资购入的一剂疫苗

Gavin认为,GPU在新时代水土不服的根源在于推理过程的两个阶段——prefill和decode,对芯片能力有截然不同的要求。

先看prefill:

简单来说,就是让模型「读题」,把用户提供的关键信息记好,用于后续调用。这个过程中,模型会一次性吃下用户所给的上下文,所有输入token同时计算。

这正是GPU擅长的领域,它专为图形处理而生,适合处理并行任务。在这个准备阶段,模型不用急着响应用户问题。

因此,相比「速度」,prefiil需要芯片有更大的上下文容量。

但到了decode阶段,这套逻辑不再适用。decode是串行任务,必须逐个token计算。更关键的是,用户能看到token被逐个「打」出来的过程。这种情况下,延迟对用户体验是致命的。

然而,GPU的数据主要存放在HBM,而非紧贴算力核心的片上存储。这意味着每生成一个token,GPU都需要重新从内存中读取数据。

这时,GPU的问题就暴露出来了——大部分算力闲置,FLOPs用不满,常常在等内存搬数据,实际计算量远小于prefill。

相比之下,Groq有更好的解决方案——LPU。

LPU使用直接集成在芯片硅片中的SRAM,无需读取数据,速度比GPU快100倍。即使只处理单个用户,也能跑出每秒300–500个token的速度,且始终保持满负荷运转。

事实证明,在速度上,LPU几乎无敌——不仅优于GPU、TPU,也优于市面上绝大多数ASIC。

用户是否愿意为「速度」付费?

一年前市场无法给出答案。但从Groq如今的业绩情况来看已经非常明确:对「速度」的巨大需求正在高速成长。

对英伟达而言,这不仅是新业务盘,更是高风险地带。若错失风口,其在AI时代的机会可能会被新玩家颠覆。

“铲子”进入新时代

TPU的崛起给英伟达的金钟罩撕开了一道裂缝。

通过自研芯片,谷歌成功摆脱了对英伟达天价GPU的依赖。这大幅降低了训练和推理成本,让谷歌在服务大量免费用户的情况下依然保持健康财务账面。

随着基础模型进展放缓,AI竞争重点转向应用层。而在这个市场,「速度」至关重要。