当前位置:首页 > 系统教程 > 正文

Ubuntu 22.04 Tesla V100双卡拓展坞完全指南

Ubuntu 22.04 Tesla V100双卡拓展坞完全指南

从零安装NVIDIA驱动与CUDA 12.8(小白友好版)

Ubuntu 22.04 Tesla V100双卡拓展坞完全指南 22.04安装NVIDIA驱动  V100双卡配置 CUDA 12.8安装教程 拓展坞显卡设置 第1张

欢迎阅读本教程!本文将手把手教你在Ubuntu 22.04系统上,通过拓展坞连接两块Tesla V100显卡,并成功安装NVIDIA驱动CUDA 12.8。即使你是Linux新手,按照步骤操作也能顺利完成。

1. 准备工作:硬件与系统要求

  • 一台运行Ubuntu 22.04的主机(建议内核5.15+)
  • 两块NVIDIA Tesla V100计算卡
  • 兼容的雷电3/4或PCIe拓展坞(支持双卡供电和数据传输)
  • 稳定的电源(双V100满载约500W)
  • 网络连接(用于下载驱动和CUDA)

2. 更新系统并安装基础依赖

打开终端(Ctrl+Alt+T),执行以下命令更新软件源并安装必要的编译工具:

sudo apt update && sudo apt upgrade -ysudo apt install build-essential dkms gcc make linux-headers-$(uname -r) -y

3. 禁用默认的Nouveau驱动

Nouveau是开源的NVIDIA驱动,与官方驱动冲突,必须禁用:

echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.confecho "options nouveau modeset=0" | sudo tee -a /etc/modprobe.d/blacklist-nouveau.confsudo update-initramfs -u

重启系统:sudo reboot

4. 下载NVIDIA驱动

访问NVIDIA官网(https://www.nvidia.com/Download/index.aspx)选择对应驱动:产品系列:Tesla,产品:V100,操作系统:Linux 64-bit,CUDA工具包:12.8(或最新)。下载NVIDIA驱动安装包,例如 NVIDIA-Linux-x86_64-550.xxx.run。也可直接使用wget:

wget https://us.download.nvidia.com/tesla/550.144.03/NVIDIA-Linux-x86_64-550.144.03.run

5. 安装NVIDIA驱动

进入下载目录,给文件添加执行权限并运行安装:

chmod +x NVIDIA-Linux-x86_64-*.runsudo ./NVIDIA-Linux-x86_64-*.run --dkms

安装过程中选择“OK”接受协议,遇到“32-bit compatibility”建议选Yes,其余默认。安装完成后重启。

6. 验证驱动安装

运行以下命令检查显卡状态:

nvidia-smi

如果显示两块Tesla V100的信息,说明驱动安装成功。如果只显示一块,检查拓展坞连接和供电。

7. 安装CUDA 12.8

CUDA 12.8提供了完整的开发环境。下载官方runfile安装包:

wget https://developer.download.nvidia.com/compute/cuda/12.8.0/local_installers/cuda_12.8.0_570.86.10_linux.run

运行安装:

sudo sh cuda_12.8.0_570.86.10_linux.run

注意:安装时不要选择安装驱动(因为已安装),仅勾选“CUDA Toolkit”和“CUDA Samples”。

8. 配置环境变量

编辑 ~/.bashrc 添加CUDA路径:

echo "export PATH=/usr/local/cuda-12.8/bin:$PATH" >> ~/.bashrcecho "export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH" >> ~/.bashrcsource ~/.bashrc

9. 验证CUDA安装

检查CUDA版本:

nvcc --version

编译并运行示例程序:

cd /usr/local/cuda-12.8/samples/1_Utilities/deviceQuerysudo make./deviceQuery

如果显示双卡信息,说明CUDA 12.8安装教程成功。

10. 双卡测试与优化

对于Tesla V100双卡配置,可以通过nvidia-smi查看两张卡的利用率。如果使用拓展坞,注意PCIe带宽可能成为瓶颈,建议监控实际性能。

常见问题

  • Q: 安装驱动后黑屏? A: 启动时进入recovery模式,卸载驱动:sudo apt purge nvidia-*,重新安装。
  • Q: 拓展坞无法识别第二张卡? A: 检查拓展坞固件,尝试更换雷电接口,或在BIOS中开启雷电支持。
  • Q: CUDA编译报错? A: 确认gcc版本兼容,CUDA 12.8要求gcc ≤ 12,可用 sudo apt install gcc-12 并设置优先级。

至此,你已经完成了Ubuntu 22.04安装NVIDIA驱动拓展坞显卡设置,可以开始你的深度学习或科学计算任务了!如有问题欢迎留言交流。