当前位置：首页 > 科技资讯 > 正文

vLLM：红帽助力打造全球领先的AI推理引擎

主机测评网
科技资讯
2026-05-26
369

vLLM的旅程始于加州大学伯克利分校的Sky Computing Lab，一群满怀热情的学生与研究员在此打下了坚实基础。2023年，他们开源了核心的PagedAttention技术，vLLM在短短一年多内GitHub Star数突破4万，迅速增长至如今的6.5万，成为全球科技公司的首选推理引擎。

Neural Magic在这一过程中扮演了关键角色。这家由MIT研究员创立的企业，在AI优化领域的巨头林中，凭借独特的“免费平台+开源工具”策略脱颖而出。通过深度贡献vLLM，Neural Magic不仅构建了成熟的企业级推理堆栈，还持续推动模型优化研究，维护着可直接与vLLM集成的预优化模型库。

vLLM：红帽助力打造全球领先的AI推理引擎 vLLM Neural Magic 红帽 AI推理引擎第1张红帽首席工程师、vLLM核心贡献者Michael Goin

从Llama转向DeepSeek

作为vLLM项目的“内核团队”，Michael的团队始终专注于集成与开发高性能推理内核，确保项目在快速迭代中保持领先。随着各类模型竞相发布，vLLM的开发节奏持续加快，尤其是DeepSeek R1的发布，推动团队从聚焦Llama系列模型效率优化，转向全力投入DeepSeek模型相关特性的优化中。

为迅速响应DeepSeek的新特性，整个0.7.2版本的开发周期紧凑而高效，支持了Qwen 2.5 VL并引入了Transformers backend，使用户能够直接运行任意Hugging Face模型。随后的0.7.3版本则成为一次规模更大的更新，众多贡献者参与其中，开发过程高效而紧张。

该版本不仅为DeepSeek启用了多Token预测（MTP）、MLA注意力等优化，还扩展了对AMD硬件的支持与调优。此外，专家并行在DeepSeek之前并不常见，团队推动了vLLM从支持张量并行、流水线并行到支持专家并行的演进。Michael还将DeepSeek开源的一系列高性能工具，如DeepGEMM、DeepEP、专家并行负载均衡等，系统化地融入vLLM生态。

支持多样硬件的框架

vLLM团队的另一个核心使命是构建开放、高效的硬件推理生态。他们不仅广泛支持各类主流芯片，还深度参与新硬件的架构设计与性能优化，推动整个社区向多硬件兼容方向演进。过去几个月，Michael与NVIDIA共同推进Blackwell芯片的支持工作，优化B200相关性能。他还与AMD团队保持紧密协作，确保AMD在vLLM中的性能表现。

以与沐曦的合作为例，红帽团队的参与程度之深：在项目早期阶段，Michael便与沐曦团队共同讨论支持框架的设计方向。他主导高层架构，而团队中的社区贡献者则深入细节，甚至专程赴上海进行面对面技术对接。双方还在Slack上创建了频道，组建起一个跨公司的“线上联合工作组”，确保支持工作持续高效推进。

PyTorch的重要性

在异构计算时代，vLLM之所以能广泛支持从NVIDIA、AMD到Google TPU乃至国内众多芯片，其核心战略在于深度拥抱PyTorch。从技术栈来看，硬件之上是PyTorch，PyTorch之上才是vLLM。这意味着只要硬件厂商提供了对PyTorch的良好支持，适配vLLM的工作就已完成大半。

PyTorch自身已提供SDPA注意力实现，而vLLM在此基础上还支持十余种其他硬件backend的注意力实现。这种统一的PyTorch抽象层使vLLM得以集成各家硬件的加速实现。只要硬件供应商提供适用于PyTorch的集成或分发版本，绝大部分（约90%）工作就已自然完成。

NVIDIA的护城河还坚固吗？

我们自然需要面对一个更深层的问题：如果CUDA是GPU加速的“引擎”，PyTorch是调用它的“框架”，那么新兴硬件厂商究竟该如何追赶？在Michael看来，这是一个充满挑战的命题。核心难点在于即便最终能在PyTorch层实现功能兼容，其效率往往难以匹敌NVIDIA经过十数年深度打磨的CUDA生态。

不过，路径依然存在。Michael指出在硬件抽象层采用类似Triton的领域特定语言是一种解决方案：只需用Triton编写一次算法，便可在多种硬件平台上运行。但即使软件最终能够支持所有硬件backend，内核开发人员仍需投入大量手动调试与内核开发工作。