当前位置:首页 > RockyLinux > 正文

RockyLinux集群监控告警设置(手把手教你搭建Prometheus+Grafana实现智能告警)

在现代IT运维中,RockyLinux集群监控是保障服务高可用性的关键环节。本文将面向零基础用户,详细讲解如何在RockyLinux服务器集群上部署 Prometheus监控系统Grafana可视化告警 平台,实现对CPU、内存、磁盘、网络等核心指标的实时监控与异常告警。

RockyLinux集群监控告警设置(手把手教你搭建Prometheus+Grafana实现智能告警) RockyLinux集群监控  Prometheus监控系统 Grafana可视化告警 Linux服务器集群管理 第1张

一、环境准备

假设你有以下环境:

  • 至少2台运行 RockyLinux 8/9 的服务器(一台作为监控服务器,其余为被监控节点)
  • 所有服务器已配置静态IP并可互相通信
  • 已安装 firewalld 或 iptables,并开放必要端口(9090、9100、3000 等)

二、在所有节点安装 Node Exporter

Node Exporter 是 Prometheus 官方提供的数据采集器,用于收集主机系统指标。

# 在每台 RockyLinux 节点上执行以下命令sudo dnf install -y wget tarcd /optsudo wget https://github.com/prometheus/node_exporter/releases/download/v1.7.0/node_exporter-1.7.0.linux-amd64.tar.gzsudo tar xvfz node_exporter-1.7.0.linux-amd64.tar.gzsudo mv node_exporter-1.7.0.linux-amd64 node_exporter# 创建 systemd 服务sudo tee /etc/systemd/system/node_exporter.service <

三、部署 Prometheus 监控系统

在监控服务器上安装 Prometheus。

# 下载并解压 Prometheussudo dnf install -y wget tarcd /optsudo wget https://github.com/prometheus/prometheus/releases/download/v2.45.0/prometheus-2.45.0.linux-amd64.tar.gzsudo tar xvfz prometheus-2.45.0.linux-amd64.tar.gzsudo mv prometheus-2.45.0.linux-amd64 prometheus# 编辑配置文件,添加被监控节点sudo tee /opt/prometheus/prometheus.yml <

现在访问 http://你的监控服务器IP:9090 即可看到 Prometheus Web 界面。

四、配置 Alertmanager 实现告警通知

Alertmanager 负责处理 Prometheus 发送的告警,并通过邮件、Webhook 等方式通知运维人员。

# 下载 Alertmanagercd /optsudo wget https://github.com/prometheus/alertmanager/releases/download/v0.26.0/alertmanager-0.26.0.linux-amd64.tar.gzsudo tar xvfz alertmanager-0.26.0.linux-amd64.tar.gzsudo mv alertmanager-0.26.0.linux-amd64 alertmanager# 配置邮件告警(以 Gmail 为例)sudo tee /opt/alertmanager/alertmanager.yml <

五、安装 Grafana 可视化告警面板

Grafana 提供强大的可视化能力,让监控数据一目了然。

# 添加 Grafana 官方仓库并安装sudo dnf install -y https://dl.grafana.com/oss/rpm/grafana-10.1.5-1.x86_64.rpm# 启动服务sudo systemctl enable --now grafana-server# 开放端口sudo firewall-cmd --permanent --add-port=3000/tcpsudo firewall-cmd --reload

访问 http://你的监控服务器IP:3000,默认账号密码为 admin/admin。首次登录后会提示修改密码。

接着在 Grafana 中添加 Prometheus 作为数据源(URL 填 http://localhost:9090),然后导入官方 Dashboard ID 1860(Node Exporter Full),即可看到完整的 Linux服务器集群管理 监控面板。

六、总结

通过以上步骤,你已经成功搭建了一套基于 RockyLinux集群监控 的完整解决方案。这套系统不仅能实时展示服务器状态,还能在资源异常时自动发送告警,极大提升了运维效率。

建议定期优化告警规则(如 CPU 使用率 > 90% 持续5分钟才触发),避免“告警疲劳”。同时,可结合企业微信、钉钉等工具扩展通知渠道,打造更智能的 Grafana可视化告警 体系。

提示:生产环境中请务必配置 HTTPS、用户认证及权限控制,确保监控系统安全。