当前位置:首页 > 科技资讯 > 正文

AI推理新纪元:智能输出与价值重塑

AI推理游戏规则,正在经历一场静悄悄的变革。最新报告揭示了一个关键转折点:决定胜负的,不再是单纯的芯片性能或GPU数量,而是「每一美元能输出多少智能」。

如今,AI推理不再仅仅依赖算力硬指标!

根据Signal65的最新报告,英伟达GB200 NVL72在吞吐量方面相较于AMD MI350X达到了惊人的28倍。

在高交互场景中,DeepSeek R1每Token的成本更是低至其他方案的15倍。

AI推理新纪元:智能输出与价值重塑 AI推理 智能输出 MoE架构 经济性 第1张

尽管GB200每小时的单价贵约一倍,但这并不是重点。因为机柜级NVLink互联+软件调度能力,彻底改变了成本结构。

顶级投资人Ben Pouladian指出:「目前的关键不再是算力或GPU数量,而是每一美元能买到多少智能输出」。

AI推理新纪元:智能输出与价值重塑 AI推理 智能输出 MoE架构 经济性 第2张

当前,英伟达仍是市场领导者。其他竞争对手尚未达到这种交互水平,这就是其竞争优势所在。

AI推理新纪元:智能输出与价值重塑 AI推理 智能输出 MoE架构 经济性 第3张

值得注意的是,这还未包括近期以200亿美元收购Groq所带来的推理能力提升。

黄仁勋(老黄)的名言再次提醒我们——「买得越多,省得越多」!

AI推理新纪元:智能输出与价值重塑 AI推理 智能输出 MoE架构 经济性 第4张

AI推理核心:一美元输出多少智能?

这篇万字报告深入探讨了从稠密模型(Dense)到混合专家模型(MoE)推理背后的本质现象。

AI推理新纪元:智能输出与价值重塑 AI推理 智能输出 MoE架构 经济性 第5张

传统「稠密模型」架构要求:在生成每个Token时都激活模型里的全部参数。

这意味着模型越大,运行越慢、成本越高,同时还会带来内存需求增长等问题。

AI推理新纪元:智能输出与价值重塑 AI推理 智能输出 MoE架构 经济性 第6张

MoE架构应运而生,旨在释放更高水平的智能——在每个Token上只激活最相关的「专家」。

只需浏览一眼Artificial Analysis排行榜即可发现,全球TOP 10开源LLM全部都是MoE推理模型。

它们在推理阶段会额外「加算力」以提高准确性:

LLM不会立刻给出答案,而是先生成中间的推理Token,再输出,相当于先把请求和解法「想一遍」。

AI推理新纪元:智能输出与价值重塑 AI推理 智能输出 MoE架构 经济性 第7张

前16名里有12个是MoE模型。

这些推理Token往往远多于最终回复,而且可能完全不会展示出来。因此,能否既快又便宜地生成Token,对推理部署来说就变得至关重要。