当前位置:首页 > 系统教程 > 正文

Linux离线安装CUDA Toolkit与cuDNN完全指南

在许多企业内部服务器或安全要求较高的环境中,服务器无法连接外网。此时,安装深度学习所必需的CUDA ToolkitcuDNN就必须采用Linux离线安装的方式。本文面向零基础小白,详细讲解如何在离线Linux系统上完整部署CUDA和cuDNN,搭建稳定的深度学习环境配置

Linux离线安装CUDA Toolkit与cuDNN完全指南 CUDA Toolkit  cuDNN Linux离线安装 深度学习环境配置 第1张

1. 准备工作:检查系统与驱动

首先,确认Linux发行版及内核版本(命令:cat /etc/os-release)。接着,查看显卡驱动是否已安装及支持的CUDA版本:nvidia-smi。顶部右上角会显示“CUDA Version: xx.x”,这个数字表示当前驱动最高可支持的CUDA版本,例如11.4。后续安装的CUDA Toolkit版本必须 ≤ 此数字。

2. 下载离线安装包(关键步骤)

在有外网的机器上访问NVIDIA官网:https://developer.nvidia.com/cuda-toolkit-archive,选择对应系统架构(Linux x86_64)及版本(例如CUDA 11.8)。下载类型选runfile (local),得到类似 cuda_11.8.0_520.61.05_linux.run 的文件。同时,下载cuDNN需要注册NVIDIA账号,地址:https://developer.nvidia.com/cudnn-archive,选择与CUDA匹配的cuDNN版本(例如cuDNN for CUDA 11.x),下载cudnn-linux-x86_64-8.6.0.163_cuda11-archive.tar.xz。将两个文件通过U盘或内网传输工具复制到离线Linux服务器。

3. 离线安装CUDA Toolkit

给.run文件添加执行权限并运行安装:

    chmod +x cuda_11.8.0_520.61.05_linux.runsudo ./cuda_11.8.0_520.61.05_linux.run --toolkit --silent --override  

参数说明:--toolkit只安装CUDA Toolkit(不安装驱动,避免覆盖现有驱动),--silent静默安装,--override忽略编译器版本检查。默认安装到/usr/local/cuda-11.8。安装完成后,添加环境变量:

    echo "export PATH=/usr/local/cuda-11.8/bin:$PATH" >> ~/.bashrcecho "export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH" >> ~/.bashrcsource ~/.bashrc  

4. 离线安装cuDNN

解压下载的cuDNN压缩包:

    tar -xvf cudnn-linux-x86_64-8.6.0.163_cuda11-archive.tar.xz  

将解压后的文件复制到CUDA安装目录:

    cd cudnn-linux-x86_64-8.6.0.163_cuda11-archivesudo cp include/cudnn*.h /usr/local/cuda-11.8/includesudo cp lib/libcudnn* /usr/local/cuda-11.8/lib64sudo chmod a+r /usr/local/cuda-11.8/include/cudnn*.h /usr/local/cuda-11.8/lib64/libcudnn*  

5. 验证安装

检查CUDA Toolkit版本:nvcc -V。查看cuDNN版本:cat /usr/local/cuda-11.8/include/cudnn_version.h | grep CUDNN_MAJOR -A 2。最后,编译CUDA示例(可选):

    cd /usr/local/cuda-11.8/samplessudo make./bin/x86_64/linux/release/deviceQuery  

若看到“Result = PASS”,则表示CUDA环境正常。

6. 常见问题与解决

  • 问题1:安装CUDA时提示“missing gcc”,可添加--override参数忽略。
  • 问题2:运行程序找不到libcudnn.so,检查LD_LIBRARY_PATH是否包含cuda/lib64,或执行sudo ldconfig
  • 问题3:nvcc命令不存在,重新检查环境变量是否生效。

通过以上步骤,你已经成功在Linux上完成了CUDA ToolkitcuDNN的离线安装,拥有了完整的深度学习环境配置。以后在离线服务器上也能顺畅运行TensorFlow、PyTorch等框架了。

本文关键词:CUDA Toolkit, cuDNN, Linux离线安装, 深度学习环境配置