当前位置：首页 > 系统教程 > 正文

Linux本地部署Qwen3-VL-4B-Instruct：一步步教你搭建多模态视觉语言模型

主机测评网
系统教程
2026-03-10
239

Linux本地部署Qwen3-VL-4B-Instruct：一步步教你搭建多模态视觉语言模型

从零开始，在Ubuntu上成功运行Qwen3-VL-4B，小白也能轻松上手

欢迎来到本教程！今天我们将详细介绍如何在Linux系统（以Ubuntu 22.04为例）上本地部署Qwen3-VL-4B-Instruct模型。这是一个多模态视觉语言模型，能够同时理解图像和文本，参数量为4B，适合在消费级GPU上运行。无论你是AI爱好者还是开发者，这篇文章都将帮助你完成Qwen3-VL-4B部署，并掌握基本的推理方法。

1. 环境准备

首先，确保你的Linux机器满足以下要求：

操作系统：Ubuntu 20.04/22.04 或其他Linux发行版
Python 3.8+ 及 pip
NVIDIA GPU（建议至少8GB显存）并安装CUDA 11.8+
Git 和 Git LFS（用于下载模型权重）

如果你还没有安装CUDA，可以参考NVIDIA官方文档进行安装。我们强烈建议使用conda创建虚拟环境，避免依赖冲突。

2. 克隆模型仓库与安装依赖

打开终端，执行以下命令克隆Qwen3-VL的官方仓库：

    git clone https://github.com/QwenLM/Qwen3-VL.gitcd Qwen3-VL

然后安装Python依赖：

    pip install -r requirements.txtpip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

这里我们使用CUDA 11.8版本的PyTorch，你可以根据自己的CUDA版本调整。这一步是Linux本地安装教程中的关键环节，务必确保依赖安装成功。

Linux本地部署Qwen3-VL-4B-Instruct：一步步教你搭建多模态视觉语言模型 Qwen3-VL-4B部署 Linux本地安装教程多模态模型推理视觉语言模型实践第1张

3. 下载模型权重

Qwen3-VL-4B-Instruct的权重托管在Hugging Face上，你可以使用Git LFS下载：

    git lfs installgit clone https://huggingface.co/Qwen/Qwen3-VL-4B-Instruct

如果网络较慢，也可以使用huggingface镜像站。下载完成后，将模型文件夹放置在合适的位置，例如./Qwen3-VL-4B-Instruct。

4. 运行推理示例

进入仓库目录，我们可以使用提供的推理脚本测试模型。下面是一个简单的Python脚本，演示如何加载模型并进行多模态模型推理：

    from transformers import AutoModelForVision2Seq, AutoTokenizerfrom PIL import Imageimport torchmodel_path = "./Qwen3-VL-4B-Instruct"tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)model = AutoModelForVision2Seq.from_pretrained(model_path, trust_remote_code=True, torch_dtype=torch.float16).cuda()image = Image.open("test.jpg").convert("RGB")question = "描述这张图片。"inputs = tokenizer(image, question, return_tensors="pt").to(model.device)outputs = model.generate(**inputs, max_new_tokens=128)print(tokenizer.decode(outputs[0], skip_special_tokens=True))

将上述代码保存为test_qwen.py，并准备一张测试图片test.jpg，然后运行：