2024年,来自北京大学金鑫-刘譞哲研究组与加州大学圣地亚哥分校「Hao AI Lab」的学者们共同提出了DistServe解耦推理思想。这一创新理念在短短一年内便从学术构想快速演进为行业实践准则,相继被NVIDIA、vLLM等核心大模型推理框架集成,标志着人工智能技术正步入「模块化智能」的全新阶段。
若以「摩尔定律」所描述的计算能力每18个月倍增为参照,当今大模型推理成本的下降速率已显著超越该定律对计算性能迭代的预期。
这一飞跃并非单纯依赖芯片硬件性能的提升,更深层的驱动力源于推理系统自身的结构性进化。而加速这一进程的关键,正是DistServe系统中首次构想并实现的「解耦推理」范式。
该系统由北京大学、加州大学圣地亚哥分校等机构于2024年3月联合发布,其核心是一个简洁而深刻的构想:
将大模型的推理流程分离为「预填充」与「解码」两个关键阶段,并让它们分别在专属的计算资源池中进行弹性伸缩与智能调度。
如今,这种解耦推理设计已被NVIDIA、llm-d、vLLM、MoonCake等主流大模型推理框架广泛采纳,并开始在真实的大规模推理场景中展现其强大的效能。
「Hao AI Lab」由加州大学圣地亚哥分校助理教授Hao Zhang主导,他同时也是2025年谷歌机器学习与系统青年教师奖的获奖者。
加州大学圣地亚哥分校助理教授Hao Zhang
2025年,「Hao AI Lab」团队还获得了NVIDIA捐赠的DGX B200系统,用以增强其人工智能研究的基础设施能力。
「Hao AI Lab」团队获得NVIDIA赠送的DGX B200系统
作为「解耦推理」概念的初始设计者,Hao Zhang团队详尽回顾了「预填充-解码」解耦架构如何从研究理念转化为生产系统,并探讨在大模型推理持续扩展的背景下,解耦推理未来的演进方向。
在DistServe问世之前,大多数推理框架采用「同址部署」模式:
即在同一块GPU上混合执行「预填充」与「解码」两个阶段。
在每次推理迭代中,调度器会尝试将多个用户请求合并为一个批次,执行一次计算,然后为每个请求生成一个输出token。
这项称为「连续批处理」的技术最初由Orca提出,随后经vLLM推广普及。
该方法曾因其高效性成为行业标准,但它也存在两个根本性局限。
一是阶段干扰。
「预填充」和「解码」共享同一GPU资源,它们的处理延迟不可避免地会相互影响。
即便采用了「分块预填充」等优化技术,一个大型预填充请求仍可能导致TPOT(每个输出token的时间)延长2至3倍,尤其在流量突增时更为明显。
如上图(上)所示,当预填充(橙色)与解码(蓝色)同址部署时,两者相互干扰,导致解码过程暂停;上图(下)则显示,将预填充与解码分离到不同机器后,两者便能无干扰地顺畅执行。
二是资源耦合伸缩。
在实际生产环境中,企业级应用通常将TTFT(首token时间)和TPOT视为关键的用户体验延迟指标。
当预填充和解码部署于同一组GPU时,资源分配器必须同时满足两者在最坏情况下的延迟需求。
这意味着系统需要过度预留资源,导致计算资源利用率降低,整体效率受损。
随着部署规模不断扩大、延迟要求日益严格,上述问题所产生的成本代价急剧攀升。
正是这些实际痛点催生了DistServe的诞生。
DistServe通过将预填充与解码拆分为独立的计算池,彻底消除了二者间的干扰,并首次实现了独立伸缩,使它们能够各自灵活地满足TTFT和TPOT的延迟要求,同时保持整体的高效运行。
在最初推出DistServe时,Hao Zhang团队便预见到其潜在的颠覆性。
但出乎意料的是,它并未立即获得广泛接纳。
在2024年的大部分时间里,开源社区对此思路持观望态度,因为对现有推理系统进行深度的架构重构需要巨大的工程投入。
然而到了2025年,形势骤然转变:几乎所有主流的大模型推理栈都将「解耦」视为了默认方案。
首先,核心驱动力在于越来越多企业将大模型深度集成至核心业务,「延迟控制」成为关乎业务增长乃至生存的关键因素。
而DistServe恰好精准应对了这一痛点:它使得预填充和解码的延迟变得易于观测与控制,并在真实生产环境中支持持续优化。
其次,随着模型参数规模急剧膨胀、访问流量快速增长,推理系统必须扩展到数百乃至上千张GPU才能支撑如此庞大且多变的负载。
在这种超大规模下,「解耦架构」的优势充分显现:它可以为不同阶段独立分配资源,并能灵活适配多种并行策略,实现极高的资源利用率。
第三,「解耦」显著增强了系统架构的可组合性与灵活性。
如今,这一曾被视为激进的架构理念,已成为大模型推理的核心设计原则之一。
几乎所有与大模型推理相关的生产级框架——从编排层、推理引擎、存储系统,乃至新兴的硬件架构,都以不同形式吸纳了解耦推理的思想。
在编排层,最具代表性的是NVIDIA Dynamo。
NVIDIA Dynamo架构示意图
NVIDIA Dynamo是目前最先进、最成熟的开源数据中心级分布式推理框架之一,专为预填充/解码解耦而设计。
此外,llm-d、Ray Serve等框架也基于解耦推理架构构建。
在存储层,由芝加哥大学团队研发的LMCache通过加速从预填充实例到解码实例的KV缓存传输来优化解耦过程。
LMCache架构示意图
Kimi AI团队开发的MoonCake,以「KVCache中心化」为核心思想,构建了一个面向解耦架构的LLM推理平台。
它将系统中未充分利用的存储介质统一抽象为一个集中式KV缓存池,从而使预填充实例可以无缝将缓存传输给集群中的解码实例。
MoonCake架构示意图
如今,LMCache与MoonCake已成为大规模LLM推理系统的标准存储后端。
在核心引擎层,几乎所有开源的LLM推理引擎,如SGLang与vLLM,都已原生支持「解耦推理」模式。
「预填充-解码解耦」的推理理念,在2025年已逐渐成熟并广泛应用。
然而,这仅仅是一个开端。
从更宏观的视角看,解耦不仅是一种「架构技巧」,更代表了一种深层的系统哲学:
打破神经网络推理中的「计算单体」结构,让系统能够在计算、存储与通信之间实现自由重组与优化。
学术界和工业界正在探索多个新方向,推动解耦架构向「通用分解式推理」阶段演进。
1. Attention-FFN解耦
以往的预填充-解码解耦主要解决了「上下文输入与自回归输出」的阶段性分离问题,但模型内部结构仍被视为不可分割的整体。
如今,研究者开始尝试在模型层级上进一步细化解耦粒度。
2025年,MIT CSAIL与DeepSeek Research提出了「Attention–FFN解耦」框架,将Transformer的注意力模块与前馈网络层分别部署于不同的计算节点。与此同时,刘譞哲-金鑫团队于2025年推出的A-F解耦系统MegaScale-Infer,也已在业界实现大规模部署。
这种架构允许不同节点利用异构硬件的独特优势。
这意味着未来的推理系统可能不再是「每个节点运行完整模型副本」,而是每个节点专精于运行模型的一个功能子模块。
2. 流水线解耦
解耦架构的另一自然延伸是跨层级的流水线分解。目前已有多个研究团队提出相关框架,例如:
这些系统都尝试让推理过程在不同节点之间以「阶段流」的方式流动,从而实现全局流水线化推理。
这种方式能使不同阶段的计算匹配不同类型的加速器,更适合未来多芯片异构系统。
1. 模态分解
随着多模态大模型的普及,推理系统正面临更复杂的资源编排挑战,将它们全部塞入同一推理流程会导致资源利用率显著下降。
因此,未来的趋势是将多模态推理解耦为多个模态子推理流,再在编排层通过调度器进行异步融合。
2. 多模型协同
在推理系统中同时运行多个LLM或专用子模型也变得日益常见,这些架构天然适合解耦化设计。
当前的解耦体系仍依赖于「集中式KV缓存池」或「共享SSD集群」,未来的研究方向在于让缓存体系本身也实现多层解耦与智能调度。
1. 层级化缓存架构
MIT与ETH Zürich的研究者提出HiKV(分层KV缓存)框架,将KV缓存划分为三个层次:
系统根据上下文访问热度自动迁移KV片段,从而使解耦推理的内存管理更具弹性与效率。
2. 存算协同
一些硬件厂商已开始探索原生支持解耦架构的专用芯片,这意味着未来的「解耦推理」不仅是软件架构问题,而将演进为软硬件一体化的协同设计体系。
如Google Brain Zürich与FAIR等顶尖研究团队,提出了更加前瞻的设想:
既然推理可以解耦,那么训练与持续学习是否也能被解耦?
在他们的构想中,模型的学习过程被分解为多个相互独立的子任务,每个子任务在不同硬件上运行,并通过共享梯度缓存与语义路由器实现跨任务通信。
这种理念被称作「解耦学习」,被视为解决大模型「灾难性遗忘」与「持续适应」挑战的潜在关键路径:
目前,Google Zürich团队的内部项目「Hope」模型正是在此思想指导下孵化的。
过去十年,深度学习系统的演进趋势是「从分散到集中」,所有计算汇聚于单体模型之中。
而如今的趋势正在发生反转:从集中走向解耦。
这种演进并非倒退,而是系统走向成熟的标志,AI系统也正在迈向模块化智能,不同功能模块得以独立演化、独立扩展、独立优化。
而「解耦推理」正是这一宏大趋势的起点与基石。
未来,我们将有望见证「解耦学习」、「解耦推理」、「解耦认知」三者深度融合的下一代智能架构体系。
https://hao-ai-lab.github.io/blogs/distserve-retro/
本文由主机测评网于2026-01-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260119434.html