当前位置:首页 > Ubuntu > 正文

Ubuntu系统监控与故障排除指南(小白也能轻松上手的Linux性能监控实战教程)

在日常使用或管理 Ubuntu 服务器时,系统可能会出现卡顿、服务无响应、资源占用过高等问题。掌握基本的 Ubuntu系统监控故障排除指南 技能,可以帮助你快速定位并解决问题,保障系统稳定运行。本文将从零开始,手把手教你如何监控系统状态并进行常见故障排查。

Ubuntu系统监控与故障排除指南(小白也能轻松上手的Linux性能监控实战教程) Ubuntu系统监控 故障排除指南 Linux性能监控 Ubuntu服务器运维 第1张

一、常用系统监控工具

Ubuntu 自带多个命令行工具,可用于实时监控 CPU、内存、磁盘和网络等资源使用情况。

1. top 命令:实时查看进程资源占用

在终端中输入:

top  

该命令会显示当前系统中 CPU 和内存占用最高的进程。按 q 退出。

2. htop 命令(更友好的交互式监控)

htop 是 top 的增强版,支持鼠标操作和颜色高亮。如未安装,可先执行:

sudo apt updatesudo apt install htop  

然后运行:

htop  

3. df 和 du:磁盘空间监控

查看磁盘整体使用情况:

df -h  

查看某个目录占用空间(例如 /var/log):

du -sh /var/log  

二、常见故障场景及排查方法

1. 系统变慢或无响应

首先使用 tophtop 查看是否有进程占满 CPU 或内存。若发现异常进程(如未知程序占用 100% CPU),可记录其 PID 并终止:

sudo kill -9 [PID]  

2. 服务无法访问(如 Web 服务)

检查服务是否正在运行:

sudo systemctl status apache2  

若服务未启动,尝试启动它:

sudo systemctl start apache2  

同时检查防火墙是否放行端口(如 80 或 443):

sudo ufw status  

3. 磁盘空间不足

使用 df -h 确认哪个分区已满。常见“罪魁祸首”是日志文件。可清理旧日志:

sudo journalctl --vacuum-time=7d  # 清理7天前的系统日志sudo rm /var/log/*.gz               # 删除压缩的旧日志(谨慎操作)  

三、进阶建议:定期监控与日志分析

对于生产环境的 Ubuntu 服务器,建议配置自动监控工具如 netdataprometheus + grafana,实现可视化监控告警。此外,养成定期检查 /var/log/syslog/var/log/kern.log 的习惯,有助于提前发现潜在问题。

通过掌握这些基础的 Linux性能监控 技巧和 Ubuntu服务器运维 方法,即使是初学者也能有效应对大多数系统异常。记住:早发现、早处理,是保障系统高可用的关键!