当前位置：首页 > RockyLinux > 正文

RockyLinux监控告警故障排查（手把手教你快速定位与修复系统异常）

主机测评网
RockyLinux
2025-12-08
781

在运维工作中，RockyLinux监控告警是保障系统稳定运行的重要手段。当服务器出现异常时，及时的告警通知可以帮助我们快速响应，避免业务中断。然而，很多新手在面对告警失效、误报或漏报等问题时常常束手无策。本文将围绕系统故障排查，从零开始教你如何搭建、验证和修复 RockyLinux 上的监控告警系统。

一、常见监控告警架构简介

在 RockyLinux 中，典型的监控告警系统通常由以下组件构成：

Prometheus：用于采集和存储指标数据
Node Exporter：暴露主机系统指标（如 CPU、内存、磁盘等）
Alertmanager：处理 Prometheus 发出的告警，并通过邮件、Webhook 等方式通知
Grafana（可选）：可视化监控数据

RockyLinux监控告警故障排查（手把手教你快速定位与修复系统异常） RockyLinux监控告警系统故障排查 Linux服务器监控 Prometheus告警配置第1张

二、排查步骤：从告警未触发开始

假设你收到用户反馈“服务器宕机但没收到告警”，请按以下顺序排查：

1. 检查 Node Exporter 是否正常运行

Node Exporter 负责采集系统指标。如果它挂了，Prometheus 就拿不到数据，自然无法触发告警。

# 查看服务状态systemctl status node_exporter# 如果未运行，启动它sudo systemctl start node_exportersudo systemctl enable node_exporter# 测试是否能访问指标curl http://localhost:9100/metrics

2. 验证 Prometheus 是否抓取到数据

若状态为 DOWN，常见原因包括：

防火墙阻止了 9100 端口
Prometheus 配置文件中 targets 地址写错
SELinux 限制了网络访问

3. 检查告警规则是否生效

Prometheus 的告警规则通常定义在 /etc/prometheus/rules/ 目录下。例如，一个 CPU 使用率过高告警规则如下：

groups:- name: system-alerts  rules:  - alert: HighCpuUsage    expr: 100 - (avg by (instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 85    for: 2m    labels:      severity: warning    annotations:      summary: "High CPU usage on {{ $labels.instance }}"      description: "CPU usage is above 85% for more than 2 minutes."

使用 Prometheus 的 Alerts 页面确认该规则是否处于 Pending 或 Firing 状态。

4. 验证 Alertmanager 是否收到并发送告警

检查 Alertmanager 日志：

journalctl -u alertmanager -f

同时，确保 Prometheus 配置中正确指向了 Alertmanager 地址（通常在 /etc/prometheus/prometheus.yml 中）：

alerting:  alertmanagers:    - static_configs:        - targets: ['localhost:9093']

三、常见问题速查表

现象	可能原因	解决方法
告警未触发	指标未采集 / 规则阈值过高	检查 Targets 和规则表达式
收到告警但无通知	Alertmanager 配置错误 / 邮件服务不可用	测试 Alertmanager 配置，检查 SMTP 设置
频繁误报	for 时间太短 / 阈值不合理	调整 for 持续时间和阈值