当前位置:首页 > 系统教程 > 正文

Ubuntu 22.04下vLLM与Docker离线部署Qwen3-4B模型(多卡并行推理与性能优化实战指南)

Ubuntu 22.04下vLLM与Docker离线部署Qwen3-4B模型(多卡并行推理与性能优化实战指南)

摘要: 在无法连接外网的生产环境中,高效部署大语言模型(LLM)是企业级应用的关键。本文将详细介绍如何在 Ubuntu 22.04 系统上,利用 Docker 和 vLLM 框架实现 Qwen3-4B 模型的多卡离线部署。

一、前期准备与环境检查

在开始部署之前,请确保您的硬件环境拥有至少两张 NVIDIA GPU(建议 16GB 显存以上),并已安装好基础驱动。

  • 操作系统:Ubuntu 22.04 LTS
  • 驱动程序:NVIDIA Driver 535+
  • 核心工具:Docker Engine & NVIDIA Container Toolkit

二、核心SEO关键词定义

本次部署涉及的四个核心技术要点如下:
1. vLLM离线推理:解决无网络环境下的高性能推理问题。
2. Qwen3-4B部署:针对通义千问最新 Qwen3 系列模型的落地实战。
3. Docker大模型镜像:通过容器化技术实现环境的一键迁移与隔离。
4. 多卡GPU配置:利用张量并行(Tensor Parallelism)提升大模型吞吐量。

Ubuntu 22.04下vLLM与Docker离线部署Qwen3-4B模型(多卡并行推理与性能优化实战指南) vLLM离线推理  Qwen3-4B部署 Docker大模型镜像 多卡GPU配置 第1张

三、离线镜像与模型准备

由于是离线部署,我们需要在有网环境下提前准备好 Docker 镜像和模型权重文件。

# 1. 在联网机下载 vLLM 官方镜像docker pull vllm/vllm-openai:latestdocker save vllm/vllm-openai:latest -o vllm_image.tar# 2. 下载 Qwen3-4B 模型文件 (以 HuggingFace 为例)git lfs installgit clone https://huggingface.co/Qwen/Qwen3-4B-Chat    

将上述文件通过 U 盘或内网传输至目标 Ubuntu 22.04 服务器。

四、Docker 多卡启动脚本配置

在离线服务器上,我们需要通过 Docker 运行容器。关键点在于 --gpus all 参数以及 vLLM 的 --tensor-parallel-size 参数。

运行命令示例: docker run --gpus all -itd --name qwen_vllm \
-v /home/user/models:/model \
-p 8000:8000 \
vllm/vllm-openai:latest \
--model /model/Qwen3-4B-Chat \
--served-model-name qwen3 \
--tensor-parallel-size 2 \
--trust-remote-code

注意:这里的 --tensor-parallel-size 2 代表使用两张显卡进行并行计算。如果是单卡,请设置为 1。

五、服务验证与性能测试

容器启动后,可以通过简单的 API 调用来测试 vLLM离线推理 是否成功:

curl http://localhost:8000/v1/chat/completions \-H "Content-Type: application/json" \-d '{  "model": "qwen3",  "messages": [{"role": "user", "content": "你好,请介绍一下你自己。"}]}'    

若返回了 Qwen3 的文本响应,说明 Qwen3-4B部署多卡GPU配置 已经完美生效。

六、常见问题排查

1. 显存溢出 (OOM):尝试调小 --gpu-memory-utilization 参数,默认为 0.9,离线环境若有其他进程可设为 0.8。
2. 镜像启动失败:检查 Docker大模型镜像 导入是否完整,执行 docker images 确认版本。

© 2024 大模型部署实战教程 - 助力高效AI落地