2024年,北京大学金鑫-刘譞哲团队与加州大学圣地亚哥分校的「Hao AI Lab」等机构提出了DistServe解耦推理理念,在短短一年多时间内,从实验室概念迅速成长为行业标准,被NVIDIA、vLLM等主流大模型推理框架采纳,预示着AI正迈向「模块化智能」的新纪元。
如果说「摩尔定律」认为计算能力每18个月翻倍,如今大模型推理成本的下降速度已远超这一预测,这并非仅因芯片性能的提升,更源于推理系统自身的进化。
加速这一进化的,是DistServe系统中首次提出并实践的「解耦推理」理念。该理念由北大、UCSD等机构于2024年3月推出,设想将大模型的推理过程拆分为「预填充」和「解码」两个阶段,并分别在不同的计算资源池中进行伸缩与调度。
如今,这种解耦推理架构已被NVIDIA、llm-d、vLLM、MoonCake等主流大模型推理框架采用,并在大规模真实推理场景中发挥重要作用。
「Hao AI Lab」由加州大学圣地亚哥分校助理教授Hao Zhang领导,他同时也是2025年谷歌机器学习与系统青年教师奖的获得者。
2025年,「Hao AI Lab」团队还获得了NVIDIA赠送的DGX B200系统,用于强化AI研究基础设施。
Hao Zhang团队作为「解耦推理」的最初设计者,回顾了「预填充-解码」解耦架构如何从研究概念走向生产系统,并探讨在大模型推理扩展背景下,解耦推理的演进方向。
在DistServe出现之前,大多数推理框架采用「同址部署」方式:即在同一GPU上同时执行「预填充」和「解码」阶段。
这种方法虽因先进性成为业界标准,但存在根本性限制:一是干扰,二是耦合伸缩。DistServe通过拆分两个阶段,打破干扰,实现独立伸缩,满足TTFT和TPOT的延迟要求。
如今,解耦推理已成为大模型推理的主要设计原则之一。从编排层、推理引擎到存储系统,甚至硬件架构,都采纳了这一思想。
解耦不仅是一种架构技巧,更是系统哲学。研究者正在探索计算层面的解耦、跨模态与多模型的解耦以及内存与缓存体系的解耦。
未来的趋势是「从集中到解耦」,AI系统走向模块化智能。而「解耦推理」正是这一趋势的起点。
本文由主机测评网于2026-05-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260544190.html