当前位置:首页 > RockyLinux > 正文

RockyLinux深度学习环境搭建(从零开始配置CUDA、PyTorch与TensorFlow)

在当今人工智能快速发展的时代,RockyLinux深度学习环境搭建成为许多开发者和研究人员的刚需。Rocky Linux 是一个稳定、开源且兼容 RHEL 的企业级操作系统,非常适合用于部署高性能计算和深度学习任务。本教程将手把手教你如何在 Rocky Linux 上从零搭建完整的深度学习开发环境,包括 NVIDIA 驱动、CUDA、cuDNN、PyTorch 和 TensorFlow,即使你是 Linux 小白也能轻松上手!

准备工作

在开始之前,请确保你满足以下条件:

  • 一台安装了 Rocky Linux 8 或 9 的计算机(建议使用最小安装版)
  • 一块支持 CUDA 的 NVIDIA 显卡(如 RTX 30/40 系列或 Tesla 系列)
  • 稳定的网络连接
  • root 权限或 sudo 权限
RockyLinux深度学习环境搭建(从零开始配置CUDA、PyTorch与TensorFlow) RockyLinux深度学习环境搭建  Rocky Linux CUDA安装 深度学习开发环境配置 RockyLinux PyTorch TensorFlow 第1张

第一步:更新系统并安装基础依赖

首先,打开终端,以 root 用户或具有 sudo 权限的用户登录,执行以下命令更新系统:

sudo dnf update -ysudo dnf install -y epel-releasesudo dnf groupinstall -y "Development Tools"sudo dnf install -y kernel-devel-$(uname -r) kernel-headers-$(uname -r)  

第二步:安装 NVIDIA 驱动

为了使用 GPU 加速,必须先安装 NVIDIA 官方驱动。我们推荐通过官方仓库安装,避免手动编译带来的兼容性问题。

sudo dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.reposudo dnf module install -y nvidia-driver:latest-dkmssudo reboot  

重启后,运行以下命令验证驱动是否安装成功:

nvidia-smi  

如果看到类似下图的输出(包含驱动版本和 GPU 信息),说明驱动已正确安装。

第三步:安装 CUDA 和 cuDNN

CUDA 是 NVIDIA 提供的并行计算平台,而 cuDNN 是深度神经网络的 GPU 加速库。两者是深度学习框架运行的基础。

sudo dnf install -y cuda-toolkit-12-3  

安装完成后,将 CUDA 路径加入环境变量:

echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrcecho 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrcsource ~/.bashrc  

接着安装 cuDNN。你需要先在 NVIDIA 官网 注册账号并下载对应 CUDA 版本的 cuDNN RPM 包(例如 for CUDA 12.x)。假设你已下载到本地:

sudo rpm -ivh libcudnn8-*.rpmsudo rpm -ivh libcudnn8-devel-*.rpm  

第四步:安装 Python 与虚拟环境

建议使用 Python 虚拟环境隔离项目依赖:

sudo dnf install -y python3 python3-pip python3-venvpython3 -m venv dl_envsource dl_env/bin/activatepip install --upgrade pip  

第五步:安装 PyTorch 与 TensorFlow

现在可以安装主流深度学习框架了。我们使用官方推荐的 pip 安装方式,自动匹配 CUDA 版本。

安装 PyTorch(支持 CUDA):

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121  

安装 TensorFlow(支持 CUDA):

pip install tensorflow[and-cuda]  

第六步:验证安装

创建一个测试脚本 test_gpu.py

# test_gpu.pyimport torchprint("PyTorch version:", torch.__version__)print("CUDA available:", torch.cuda.is_available())print("CUDA device count:", torch.cuda.device_count())import tensorflow as tfprint("TensorFlow version:", tf.__version__)print("GPU devices:", tf.config.list_physical_devices('GPU'))  

运行它:

python test_gpu.py  

如果输出显示 CUDA 可用且检测到 GPU,恭喜你!你的 RockyLinux深度学习环境搭建 已成功完成。

总结

通过本教程,你已经掌握了在 Rocky Linux 上配置完整深度学习环境的核心步骤,包括 NVIDIA 驱动、CUDA、cuDNN、PyTorch 和 TensorFlow 的安装。这套环境适用于科研、模型训练和 AI 应用开发。记住定期更新驱动和框架以获得最佳性能和安全性。

如果你在操作中遇到问题,欢迎查阅 NVIDIA 官方文档或 Rocky Linux 社区论坛。祝你在深度学习的道路上越走越远!

SEO关键词回顾:RockyLinux深度学习环境搭建、Rocky Linux CUDA安装、深度学习开发环境配置、RockyLinux PyTorch TensorFlow