当前位置:首页 > 系统教程 > 正文

Mac M1 安装大模型工具 vLLM(保姆级本地大模型推理环境搭建教程)

本文SEO关键词:vLLM Mac M1 安装、大模型推理加速、vLLM 教程、Mac 运行大模型

在人工智能飞速发展的今天,如何在本地高效地运行大语言模型(LLM)成为了开发者关注的焦点。vLLM 作为一个高吞吐量、低延迟的推理引擎,凭借其先进的 PagedAttention 技术脱颖而出。对于使用 Mac M1 系列芯片的用户来说,搭建一个流畅的 vLLM 教程 环境,可以极大提升 大模型推理加速 的效率。本文将手把手教你完成安装。

Mac M1 安装大模型工具 vLLM(保姆级本地大模型推理环境搭建教程) vLLM 安装  大模型推理加速 教程 运行大模型 第1张

一、环境准备:检查你的 Mac

在开始 Mac 运行大模型 的征程前,请确保你的系统满足以下条件:

  • 芯片:Apple M1/M2/M3 系列(包含 Pro/Max/Ultra)。
  • 系统:macOS 12.0 或更高版本。
  • 内存:建议 16GB 及以上(大模型对内存要求较高)。
  • Python 版本:3.9 - 3.11。

二、安装 Conda 虚拟环境

为了保证环境整洁,建议使用 Miniforge(专门为 Apple Silicon 优化的 Conda)。

# 创建新环境conda create -n vllm_env python=3.10 -y# 激活环境conda activate vllm_env

三、安装 PyTorch (MPS 支持)

vLLM 依赖 PyTorch。在 Mac M1 上,我们需要安装支持 MPS (Metal Performance Shaders) 的 PyTorch 预览版或最新版:

pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

注:虽然是 CPU 链接,但在 Mac 上会自动识别并包含 MPS 支持。

四、正式进行 vLLM Mac M1 安装

目前 vLLM 对 Apple Silicon 的支持正处于快速迭代中。你可以直接通过 pip 尝试安装,或者从源码编译以获取最佳兼容性:

# 尝试直接安装pip install vllm

如果遇到编译错误,请确保已安装 Xcode Command Line Tools:xcode-select --install

五、验证与测试

安装完成后,我们可以编写一个简单的 Python 脚本来测试 大模型推理加速 的效果:

from vllm import LLM, SamplingParams# 初始化模型(以 Qwen-1.5B 为例,较小适合测试)llm = LLM(model="Qwen/Qwen1.5-1.8B-Chat")prompts = ["你好,请介绍一下 vLLM。"]sampling_params = SamplingParams(temperature=0.7, top_p=0.95)outputs = llm.generate(prompts, sampling_params)for output in outputs:    print(output.outputs[0].text)

六、常见问题与优化

若遇到内存不足(Out of Memory),请尝试在初始化时设置 gpu_memory_utilization 参数,或者使用更小的量化版模型。

恭喜你!通过以上步骤,你已经成功在 Mac 上完成了 vLLM Mac M1 安装。现在你可以尽情探索本地大模型的无限可能了。