摘要: 在无法连接外网的生产环境中,高效部署大语言模型(LLM)是企业级应用的关键。本文将详细介绍如何在 Ubuntu 22.04 系统上,利用 Docker 和 vLLM 框架实现 Qwen3-4B 模型的多卡离线部署。
在开始部署之前,请确保您的硬件环境拥有至少两张 NVIDIA GPU(建议 16GB 显存以上),并已安装好基础驱动。
本次部署涉及的四个核心技术要点如下:
1. vLLM离线推理:解决无网络环境下的高性能推理问题。
2. Qwen3-4B部署:针对通义千问最新 Qwen3 系列模型的落地实战。
3. Docker大模型镜像:通过容器化技术实现环境的一键迁移与隔离。
4. 多卡GPU配置:利用张量并行(Tensor Parallelism)提升大模型吞吐量。
由于是离线部署,我们需要在有网环境下提前准备好 Docker 镜像和模型权重文件。
# 1. 在联网机下载 vLLM 官方镜像docker pull vllm/vllm-openai:latestdocker save vllm/vllm-openai:latest -o vllm_image.tar# 2. 下载 Qwen3-4B 模型文件 (以 HuggingFace 为例)git lfs installgit clone https://huggingface.co/Qwen/Qwen3-4B-Chat
将上述文件通过 U 盘或内网传输至目标 Ubuntu 22.04 服务器。
在离线服务器上,我们需要通过 Docker 运行容器。关键点在于 --gpus all 参数以及 vLLM 的 --tensor-parallel-size 参数。
docker run --gpus all -itd --name qwen_vllm \
-v /home/user/models:/model \
-p 8000:8000 \
vllm/vllm-openai:latest \
--model /model/Qwen3-4B-Chat \
--served-model-name qwen3 \
--tensor-parallel-size 2 \
--trust-remote-code 注意:这里的 --tensor-parallel-size 2 代表使用两张显卡进行并行计算。如果是单卡,请设置为 1。
容器启动后,可以通过简单的 API 调用来测试 vLLM离线推理 是否成功:
curl http://localhost:8000/v1/chat/completions \-H "Content-Type: application/json" \-d '{ "model": "qwen3", "messages": [{"role": "user", "content": "你好,请介绍一下你自己。"}]}' 若返回了 Qwen3 的文本响应,说明 Qwen3-4B部署 与 多卡GPU配置 已经完美生效。
1. 显存溢出 (OOM):尝试调小 --gpu-memory-utilization 参数,默认为 0.9,离线环境若有其他进程可设为 0.8。
2. 镜像启动失败:检查 Docker大模型镜像 导入是否完整,执行 docker images 确认版本。
© 2024 大模型部署实战教程 - 助力高效AI落地
本文由主机测评网于2026-04-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260434289.html