当前位置:首页 > 科技资讯 > 正文

vLLM:红帽助力打造全球领先的AI推理引擎

vLLM的旅程始于加州大学伯克利分校的Sky Computing Lab,一群满怀热情的学生与研究员在此打下了坚实基础。2023年,他们开源了核心的PagedAttention技术,vLLM在短短一年多内GitHub Star数突破4万,迅速增长至如今的6.5万,成为全球科技公司的首选推理引擎。

Neural Magic在这一过程中扮演了关键角色。这家由MIT研究员创立的企业,在AI优化领域的巨头林中,凭借独特的“免费平台+开源工具”策略脱颖而出。通过深度贡献vLLM,Neural Magic不仅构建了成熟的企业级推理堆栈,还持续推动模型优化研究,维护着可直接与vLLM集成的预优化模型库。

vLLM:红帽助力打造全球领先的AI推理引擎 vLLM Neural Magic 红帽 AI推理引擎 第1张红帽首席工程师、vLLM核心贡献者Michael Goin

从Llama转向DeepSeek

作为vLLM项目的“内核团队”,Michael的团队始终专注于集成与开发高性能推理内核,确保项目在快速迭代中保持领先。随着各类模型竞相发布,vLLM的开发节奏持续加快,尤其是DeepSeek R1的发布,推动团队从聚焦Llama系列模型效率优化,转向全力投入DeepSeek模型相关特性的优化中。

为迅速响应DeepSeek的新特性,整个0.7.2版本的开发周期紧凑而高效,支持了Qwen 2.5 VL并引入了Transformers backend,使用户能够直接运行任意Hugging Face模型。随后的0.7.3版本则成为一次规模更大的更新,众多贡献者参与其中,开发过程高效而紧张。

该版本不仅为DeepSeek启用了多Token预测(MTP)、MLA注意力等优化,还扩展了对AMD硬件的支持与调优。此外,专家并行在DeepSeek之前并不常见,团队推动了vLLM从支持张量并行、流水线并行到支持专家并行的演进。Michael还将DeepSeek开源的一系列高性能工具,如DeepGEMM、DeepEP、专家并行负载均衡等,系统化地融入vLLM生态。

支持多样硬件的框架

vLLM团队的另一个核心使命是构建开放、高效的硬件推理生态。他们不仅广泛支持各类主流芯片,还深度参与新硬件的架构设计与性能优化,推动整个社区向多硬件兼容方向演进。过去几个月,Michael与NVIDIA共同推进Blackwell芯片的支持工作,优化B200相关性能。他还与AMD团队保持紧密协作,确保AMD在vLLM中的性能表现。

以与沐曦的合作为例,红帽团队的参与程度之深:在项目早期阶段,Michael便与沐曦团队共同讨论支持框架的设计方向。他主导高层架构,而团队中的社区贡献者则深入细节,甚至专程赴上海进行面对面技术对接。双方还在Slack上创建了频道,组建起一个跨公司的“线上联合工作组”,确保支持工作持续高效推进。

PyTorch的重要性

在异构计算时代,vLLM之所以能广泛支持从NVIDIA、AMD到Google TPU乃至国内众多芯片,其核心战略在于深度拥抱PyTorch。从技术栈来看,硬件之上是PyTorch,PyTorch之上才是vLLM。这意味着只要硬件厂商提供了对PyTorch的良好支持,适配vLLM的工作就已完成大半。

PyTorch自身已提供SDPA注意力实现,而vLLM在此基础上还支持十余种其他硬件backend的注意力实现。这种统一的PyTorch抽象层使vLLM得以集成各家硬件的加速实现。只要硬件供应商提供适用于PyTorch的集成或分发版本,绝大部分(约90%)工作就已自然完成。

NVIDIA的护城河还坚固吗?

我们自然需要面对一个更深层的问题:如果CUDA是GPU加速的“引擎”,PyTorch是调用它的“框架”,那么新兴硬件厂商究竟该如何追赶?在Michael看来,这是一个充满挑战的命题。核心难点在于即便最终能在PyTorch层实现功能兼容,其效率往往难以匹敌NVIDIA经过十数年深度打磨的CUDA生态。

不过,路径依然存在。Michael指出在硬件抽象层采用类似Triton的领域特定语言是一种解决方案:只需用Triton编写一次算法,便可在多种硬件平台上运行。但即使软件最终能够支持所有硬件backend,内核开发人员仍需投入大量手动调试与内核开发工作。

多模态支持

在软件与硬件生态持续融合的背景下,vLLM并未止步于优化单一模态的推理。当多模态AI浪潮席卷而来时,团队将vLLM从一个纯文本推理引擎全面升级为一个支持全模态生成与理解的统一服务平台。

“无论是文生图、文档理解还是其他生成任务,其底层均依赖于大模型推理,因此都可以通过vLLM进行处理。”Michael指出。

如何保持竞争优势

随着vLLM在过去两年半中逐渐发展成熟,一个趋势越来越明显:许多公司都开始将更多修改回馈至上游。“这是因为vLLM本身已经有了大量的改进,这些改进对他们私下开发的版本来说也是有增益性的。”Michael解释道。

“我们的上游版本有一个独特优势:就是和众多领先的模型实验室和公司合作,快速收集他们的反馈。”张家驹补充道。vLLM的合作名单涵盖了从DeepSeek、Qwen、字节、腾讯到LinkedIn、亚马逊等。

回应开发者问题

作为一个每月下载量超20万次的热门推理框架,vLLM的广泛采用也使其必须直面生产环境中的真实挑战。近期不少开发者集中反馈了启动速度偏慢的问题。

“团队已在GitHub上建立了专项跟踪与‘启动体验优化’项目。”Michael回应道。

结束语

“红帽全球约有两万名员工,其中可能有一两千名工程师完全在社区中做贡献。”张家驹表示。“红帽力图把这个标准化的层做得越来越厚、越来越稳定。”面向更加多变的未来,红帽和vLLM如何守住“推理服务标准”的地位,我们拭目以待。