AI推理游戏规则,正在经历一场静悄悄的变革。最新报告揭示了一个关键转折点:决定胜负的,不再是单纯的芯片性能或GPU数量,而是「每一美元能输出多少智能」。
如今,AI推理不再仅仅依赖算力硬指标!
根据Signal65的最新报告,英伟达GB200 NVL72在吞吐量方面相较于AMD MI350X达到了惊人的28倍。
在高交互场景中,DeepSeek R1每Token的成本更是低至其他方案的15倍。
尽管GB200每小时的单价贵约一倍,但这并不是重点。因为机柜级NVLink互联+软件调度能力,彻底改变了成本结构。
顶级投资人Ben Pouladian指出:「目前的关键不再是算力或GPU数量,而是每一美元能买到多少智能输出」。
当前,英伟达仍是市场领导者。其他竞争对手尚未达到这种交互水平,这就是其竞争优势所在。
值得注意的是,这还未包括近期以200亿美元收购Groq所带来的推理能力提升。
黄仁勋(老黄)的名言再次提醒我们——「买得越多,省得越多」!
这篇万字报告深入探讨了从稠密模型(Dense)到混合专家模型(MoE)推理背后的本质现象。
传统「稠密模型」架构要求:在生成每个Token时都激活模型里的全部参数。
这意味着模型越大,运行越慢、成本越高,同时还会带来内存需求增长等问题。
MoE架构应运而生,旨在释放更高水平的智能——在每个Token上只激活最相关的「专家」。
只需浏览一眼Artificial Analysis排行榜即可发现,全球TOP 10开源LLM全部都是MoE推理模型。
它们在推理阶段会额外「加算力」以提高准确性:
LLM不会立刻给出答案,而是先生成中间的推理Token,再输出,相当于先把请求和解法「想一遍」。
前16名里有12个是MoE模型。
这些推理Token往往远多于最终回复,而且可能完全不会展示出来。因此,能否既快又便宜地生成Token,对推理部署来说就变得至关重要。
本文由主机测评网于2026-06-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260647447.html