当前位置:首页 > RockyLinux > 正文

RockyLinux告警规则配置(手把手教你设置Prometheus与Alertmanager实现智能监控告警)

在现代IT运维中,RockyLinux告警规则配置是保障系统稳定运行的关键环节。本文将从零开始,详细讲解如何在RockyLinux系统上配置基于Prometheus和Alertmanager的监控告警体系。无论你是刚接触Linux的新手,还是有一定经验的运维人员,都能轻松上手。

RockyLinux告警规则配置(手把手教你设置Prometheus与Alertmanager实现智能监控告警) RockyLinux告警规则配置  Prometheus监控告警 Alertmanager告警管理 Linux系统监控 第1张

一、准备工作

在开始配置前,请确保你的RockyLinux系统已满足以下条件:

  • RockyLinux 8 或 9 已安装并可联网
  • 已安装 Prometheus(用于指标采集)
  • 已安装 Alertmanager(用于告警通知)
  • 具备 root 或 sudo 权限

二、安装 Prometheus 和 Alertmanager

如果你尚未安装 Prometheus 和 Alertmanager,可以使用以下命令快速部署:

# 添加 Prometheus 用户(安全最佳实践)sudo useradd --no-create-home --shell /bin/false prometheus# 下载 Prometheus(以最新版为例)cd /tmpwget https://github.com/prometheus/prometheus/releases/download/v2.47.1/prometheus-2.47.1.linux-amd64.tar.gztar xvfz prometheus-*.tar.gzsudo mv prometheus-* /opt/prometheus# 同样方式下载 Alertmanagerwget https://github.com/prometheus/alertmanager/releases/download/v0.26.0/alertmanager-0.26.0.linux-amd64.tar.gztar xvfz alertmanager-*.tar.gzsudo mv alertmanager-* /opt/alertmanager

三、配置告警规则文件

告警规则是Prometheus监控告警的核心。我们将在 /etc/prometheus/rules/ 目录下创建一个名为 alert.rules.yml 的文件。

# 创建规则目录sudo mkdir -p /etc/prometheus/rules# 编辑告警规则文件sudo tee /etc/prometheus/rules/alert.rules.yml < 80    for: 5m    labels:      severity: warning    annotations:      summary: "High CPU usage on {{ $labels.instance }}"      description: "CPU usage is above 80% for more than 5 minutes."  - alert: DiskSpaceLow    expr: (node_filesystem_avail_bytes / node_filesystem_size_bytes) * 100 < 10    for: 10m    labels:      severity: critical    annotations:      summary: "Low disk space on {{ $labels.instance }}"      description: "Available disk space is less than 10%."EOF

四、配置 Prometheus 加载告警规则

编辑 Prometheus 主配置文件 /etc/prometheus/prometheus.yml,添加 rules 文件路径:

global:  scrape_interval: 15srule_files:  - "/etc/prometheus/rules/*.yml"scrape_configs:  - job_name: 'node'    static_configs:      - targets: ['localhost:9100']  # 假设 Node Exporter 已运行alerting:  alertmanagers:    - static_configs:        - targets: ['localhost:9093']  # Alertmanager 默认端口

五、配置 Alertmanager 告警通知

Alertmanager 负责将告警发送到邮箱、企业微信、钉钉等渠道。编辑其配置文件 /etc/alertmanager/alertmanager.yml

global:  smtp_smarthost: 'smtp.example.com:587'  smtp_from: 'alert@example.com'  smtp_auth_username: 'alert@example.com'  smtp_auth_password: 'your_password'route:  receiver: 'email-notifications'receivers:  - name: 'email-notifications'    email_configs:      - to: 'admin@example.com'        send_resolved: true

以上配置将告警通过邮件发送。你也可以根据需要集成 Webhook 实现更多通知方式。

六、启动服务并验证

使用 systemd 启动 Prometheus 和 Alertmanager,并设置开机自启:

# 启动 Prometheussudo systemctl start prometheussudo systemctl enable prometheus# 启动 Alertmanagersudo systemctl start alertmanagersudo systemctl enable alertmanager

访问 http://your-server-ip:9090 进入 Prometheus Web UI,在 “Alerts” 页面查看是否加载了你定义的规则。触发条件后,Alertmanager 将自动发送通知。

七、总结

通过本教程,你已经掌握了在 RockyLinux 上完成一套完整的 Linux系统监控Alertmanager告警管理 配置流程。合理设置告警阈值和通知方式,能极大提升故障响应效率,保障业务连续性。

提示:生产环境中建议结合 Node Exporter 采集主机指标,并定期测试告警链路是否畅通。