当前位置：首页 > 系统教程 > 正文

Ubuntu 22.04下vLLM与Docker离线部署Qwen3-4B模型（多卡并行推理与性能优化实战指南）

主机测评网
系统教程
2026-04-06
836

Ubuntu 22.04下vLLM与Docker离线部署Qwen3-4B模型（多卡并行推理与性能优化实战指南）

摘要： 在无法连接外网的生产环境中，高效部署大语言模型（LLM）是企业级应用的关键。本文将详细介绍如何在 Ubuntu 22.04 系统上，利用 Docker 和 vLLM 框架实现 Qwen3-4B 模型的多卡离线部署。

一、前期准备与环境检查

在开始部署之前，请确保您的硬件环境拥有至少两张 NVIDIA GPU（建议 16GB 显存以上），并已安装好基础驱动。

操作系统：Ubuntu 22.04 LTS
驱动程序：NVIDIA Driver 535+
核心工具：Docker Engine & NVIDIA Container Toolkit

二、核心SEO关键词定义

本次部署涉及的四个核心技术要点如下：
1. vLLM离线推理：解决无网络环境下的高性能推理问题。
2. Qwen3-4B部署：针对通义千问最新 Qwen3 系列模型的落地实战。
3. Docker大模型镜像：通过容器化技术实现环境的一键迁移与隔离。
4. 多卡GPU配置：利用张量并行（Tensor Parallelism）提升大模型吞吐量。

Ubuntu 22.04下vLLM与Docker离线部署Qwen3-4B模型（多卡并行推理与性能优化实战指南） vLLM离线推理 Qwen3-4B部署 Docker大模型镜像多卡GPU配置第1张

三、离线镜像与模型准备

由于是离线部署，我们需要在有网环境下提前准备好 Docker 镜像和模型权重文件。

# 1. 在联网机下载 vLLM 官方镜像docker pull vllm/vllm-openai:latestdocker save vllm/vllm-openai:latest -o vllm_image.tar# 2. 下载 Qwen3-4B 模型文件 (以 HuggingFace 为例)git lfs installgit clone https://huggingface.co/Qwen/Qwen3-4B-Chat

将上述文件通过 U 盘或内网传输至目标 Ubuntu 22.04 服务器。

四、Docker 多卡启动脚本配置

在离线服务器上，我们需要通过 Docker 运行容器。关键点在于 --gpus all 参数以及 vLLM 的 --tensor-parallel-size 参数。

运行命令示例：

            docker run --gpus all -itd --name qwen_vllm \
            -v /home/user/models:/model \
            -p 8000:8000 \
            vllm/vllm-openai:latest \
            --model /model/Qwen3-4B-Chat \
            --served-model-name qwen3 \
            --tensor-parallel-size 2 \
            --trust-remote-code

注意：这里的 --tensor-parallel-size 2 代表使用两张显卡进行并行计算。如果是单卡，请设置为 1。

五、服务验证与性能测试

容器启动后，可以通过简单的 API 调用来测试 vLLM离线推理 是否成功：

curl http://localhost:8000/v1/chat/completions \-H "Content-Type: application/json" \-d '{  "model": "qwen3",  "messages": [{"role": "user", "content": "你好，请介绍一下你自己。"}]}'

若返回了 Qwen3 的文本响应，说明 Qwen3-4B部署 与 多卡GPU配置 已经完美生效。