当前位置:首页 > 系统教程 > 正文

NVIDIA驱动与CUDA版本升级教程(Ubuntu-8卡H20服务器)

NVIDIA驱动与CUDA版本升级教程(Ubuntu-8卡H20服务器)

手把手教你完成NVIDIA驱动升级和CUDA版本更新,充分发挥H20显卡性能

1. 准备工作:检查当前环境

在开始 NVIDIA驱动升级 之前,需要确认服务器信息。登录你的 Ubuntu服务器,打开终端执行以下命令:

lsb_release -a         # 查看Ubuntu版本uname -m               # 查看系统架构(应为x86_64)nvidia-smi             # 查看当前驱动版本和GPU信息(应识别出8张H20显卡)nvcc --version         # 查看当前CUDA版本(如有)

确保系统为Ubuntu 20.04或22.04(LTS版本更稳定),且已安装8张 H20显卡。记录下当前驱动和CUDA版本,方便后续对比。

2. 卸载现有NVIDIA驱动

为避免冲突,建议先彻底卸载旧驱动:

sudo apt purge nvidia-* -ysudo apt autoremove -ysudo apt autoclean

若之前使用runfile安装,则需执行对应卸载脚本(如 sudo /usr/bin/nvidia-uninstall)。

3. 禁用开源驱动nouveau

编辑黑名单文件:

sudo bash -c "echo "blacklist nouveau" >> /etc/modprobe.d/blacklist-nvidia-nouveau.conf"sudo bash -c "echo "options nouveau modeset=0" >> /etc/modprobe.d/blacklist-nvidia-nouveau.conf"sudo update-initramfs -u

重启后验证nouveau是否被禁用:lsmod | grep nouveau 应无输出。

4. 安装依赖包

编译驱动需要内核头文件和开发工具:

sudo apt updatesudo apt install build-essential dkms linux-headers-$(uname -r) -y

5. 下载NVIDIA驱动和CUDA Toolkit

访问NVIDIA官网,选择对应 H20显卡 的驱动版本。推荐使用550或以上版本以支持H20。同时下载CUDA 12.x(与驱动兼容)。

NVIDIA驱动与CUDA版本升级教程(Ubuntu-8卡H20服务器) NVIDIA驱动升级  CUDA版本更新 H20显卡 Ubuntu服务器 第1张

也可以使用命令行下载(示例,请替换为实际链接):

wget https://us.download.nvidia.com/tesla/550.90.07/NVIDIA-Linux-x86_64-550.90.07.runwget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda_12.4.0_550.54.15_linux.run

6. 安装NVIDIA驱动

给驱动run文件添加执行权限并安装:

chmod +x NVIDIA-Linux-x86_64-*.runsudo ./NVIDIA-Linux-x86_64-*.run --dkms

安装过程中根据提示选择“是”,并允许DKMS注册内核模块。完成后执行 nvidia-smi 确认驱动已识别8张H20显卡。

7. 安装CUDA(进行CUDA版本更新)

运行CUDA安装器:

chmod +x cuda_.runsudo ./cuda_.run

注意:安装时不要选择安装驱动(因为已装),只勾选CUDA Toolkit、CUDA Samples和CUDA Documentation。安装路径默认即可(/usr/local/cuda-12.x)。

8. 设置环境变量

编辑 ~/.bashrc 或 /etc/profile 添加以下内容:

export PATH=/usr/local/cuda/bin:$PATHexport LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

生效配置:source ~/.bashrc

9. 验证安装

检查驱动和CUDA版本:

nvidia-smi                # 应显示驱动版本和8张H20显卡echo $PATH | grep cuda    # 检查路径nvcc --version            # 显示新安装的CUDA版本

也可编译CUDA示例测试:

cd /usr/local/cuda/samples/1_Utilities/deviceQuerysudo make./deviceQuery

看到“Result = PASS”即表示成功。

总结

至此,你已在 Ubuntu服务器 上完成了 NVIDIA驱动升级CUDA版本更新,并让8张 H20显卡 正常工作。升级后请根据实际应用(如深度学习框架)重新编译或适配新CUDA版本。