当前位置:首页 > 系统教程 > 正文

Linux实时查看CUDA显卡的使用情况命令

Linux实时查看CUDA显卡的使用情况命令

(小白也能轻松掌握的GPU监控技巧)

在进行深度学习、科学计算或任何GPU加速任务时,实时监控CUDA显卡的状态至关重要。本文详细介绍如何在Linux系统中使用命令实时查看GPU使用情况,即使你是初学者也能轻松掌握。

1. 确保NVIDIA驱动已安装

要查看CUDA显卡信息,首先需要安装NVIDIA驱动。打开终端输入nvidia-smi,如果提示“命令未找到”,则需要安装驱动。对于Ubuntu/Debian系统,可以使用以下命令安装:

sudo apt updatesudo apt install nvidia-driver-470   # 版本号根据你的显卡选择

安装完成后重启系统,再次运行nvidia-smi即可看到显卡信息。

2. 基础查看命令:nvidia-smi

直接运行nvidia-smi会显示当前所有CUDA显卡的静态信息,包括驱动版本、CUDA版本、显卡名称、显存使用情况等。输出示例:

+-----------------------------------------------------------------------------+| NVIDIA-SMI 470.86    Driver Version: 470.86    CUDA Version: 11.4           ||-------------------------------+----------------------+----------------------+| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC || Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. ||===============================+======================+======================||   0  GeForce RTX 3080    Off  | 00000000:01:00.0  On |                  N/A ||  0%   45C    P8    25W / 320W |   1234MiB / 10240MiB |      5%      Default |+-------------------------------+----------------------+----------------------+

但这只是一次性输出,无法实时更新。要实现Linux实时查看,需要结合其他命令。

3. 实时查看:watch + nvidia-smi

使用watch命令可以定时重复执行一条命令,从而实现动态刷新。格式:

watch -n 1 nvidia-smi

-n 1表示每隔1秒刷新一次。运行后终端会持续显示GPU使用情况,按Ctrl+C退出。

Linux实时查看CUDA显卡的使用情况命令 CUDA显卡  Linux实时查看 nvidia-smi命令 GPU使用情况 第1张

上图展示了实时监控的效果,每一秒更新一次显存、温度、利用率等数据,非常适合长时间任务中观察显卡状态。

4. 解读nvidia-smi输出信息

  • GPU编号:多卡环境下的索引。
  • 温度(Temp):当前GPU核心温度,过高可能影响性能。
  • 显存使用(Memory-Usage):已用显存/总显存。
  • GPU利用率(GPU-Util):计算核心的繁忙程度,0%-100%。
  • 功耗(Pwr:Usage/Cap):当前功耗/最大功耗。
  • 风扇转速(Fan):风扇百分比(部分型号不显示)。

这些指标帮助你判断CUDA显卡是否达到瓶颈,从而优化任务。

5. nvidia-smi的高级用法

除了基本监控,nvidia-smi还支持丰富的参数,满足不同需求。

  • 指定GPUnvidia-smi -i 0 只显示第0号显卡。
  • 查询特定字段nvidia-smi --query-gpu=name,memory.used --format=csv 以CSV格式输出显卡名称和显存使用。
  • 持续监控nvidia-smi --loop=1 自身循环输出(类似watch,但格式紧凑)。
  • 记录日志:结合重定向将输出保存到文件。

例如,使用watch -n 2 "nvidia-smi --query-gpu=index,temperature.gpu,utilization.gpu --format=csv"可以实时刷新简洁的GPU索引、温度和利用率。

6. 实用小技巧

为了更方便,可以在~/.bashrc中添加别名:

alias gpu="watch -n 1 nvidia-smi"

之后只需输入gpu即可实时查看GPU使用情况,大大简化操作。

7. 总结

通过本文,你学会了Linux实时查看CUDA显卡的核心命令——watch -n 1 nvidia-smi,并能解读各项指标。掌握这些nvidia-smi命令技巧,能让你高效监控GPU使用情况,及时发现问题,优化计算任务。无论你是AI研究者还是Linux爱好者,这些技能都将助你事半功倍。