在现代IT运维中,RockyLinux集群监控是保障服务高可用性的关键环节。本文将面向零基础用户,详细讲解如何在RockyLinux服务器集群上部署 Prometheus监控系统 和 Grafana可视化告警 平台,实现对CPU、内存、磁盘、网络等核心指标的实时监控与异常告警。

一、环境准备
假设你有以下环境:
至少2台运行 RockyLinux 8/9 的服务器(一台作为监控服务器,其余为被监控节点) 所有服务器已配置静态IP并可互相通信 已安装 firewalld 或 iptables,并开放必要端口(9090、9100、3000 等)二、在所有节点安装 Node Exporter
Node Exporter 是 Prometheus 官方提供的数据采集器,用于收集主机系统指标。
# 在每台 RockyLinux 节点上执行以下命令sudo dnf install -y wget tarcd /optsudo wget https://github.com/prometheus/node_exporter/releases/download/v1.7.0/node_exporter-1.7.0.linux-amd64.tar.gzsudo tar xvfz node_exporter-1.7.0.linux-amd64.tar.gzsudo mv node_exporter-1.7.0.linux-amd64 node_exporter# 创建 systemd 服务sudo tee /etc/systemd/system/node_exporter.service <
三、部署 Prometheus 监控系统
在监控服务器上安装 Prometheus。
# 下载并解压 Prometheussudo dnf install -y wget tarcd /optsudo wget https://github.com/prometheus/prometheus/releases/download/v2.45.0/prometheus-2.45.0.linux-amd64.tar.gzsudo tar xvfz prometheus-2.45.0.linux-amd64.tar.gzsudo mv prometheus-2.45.0.linux-amd64 prometheus# 编辑配置文件,添加被监控节点sudo tee /opt/prometheus/prometheus.yml <
现在访问
http://你的监控服务器IP:9090即可看到 Prometheus Web 界面。
四、配置 Alertmanager 实现告警通知
Alertmanager 负责处理 Prometheus 发送的告警,并通过邮件、Webhook 等方式通知运维人员。
# 下载 Alertmanagercd /optsudo wget https://github.com/prometheus/alertmanager/releases/download/v0.26.0/alertmanager-0.26.0.linux-amd64.tar.gzsudo tar xvfz alertmanager-0.26.0.linux-amd64.tar.gzsudo mv alertmanager-0.26.0.linux-amd64 alertmanager# 配置邮件告警(以 Gmail 为例)sudo tee /opt/alertmanager/alertmanager.yml <
五、安装 Grafana 可视化告警面板
Grafana 提供强大的可视化能力,让监控数据一目了然。
# 添加 Grafana 官方仓库并安装sudo dnf install -y https://dl.grafana.com/oss/rpm/grafana-10.1.5-1.x86_64.rpm# 启动服务sudo systemctl enable --now grafana-server# 开放端口sudo firewall-cmd --permanent --add-port=3000/tcpsudo firewall-cmd --reload
访问
http://你的监控服务器IP:3000,默认账号密码为
admin/admin。首次登录后会提示修改密码。
接着在 Grafana 中添加 Prometheus 作为数据源(URL 填
http://localhost:9090),然后导入官方 Dashboard ID
1860(Node Exporter Full),即可看到完整的 Linux服务器集群管理 监控面板。
六、总结
通过以上步骤,你已经成功搭建了一套基于 RockyLinux集群监控 的完整解决方案。这套系统不仅能实时展示服务器状态,还能在资源异常时自动发送告警,极大提升了运维效率。
建议定期优化告警规则(如 CPU 使用率 > 90% 持续5分钟才触发),避免“告警疲劳”。同时,可结合企业微信、钉钉等工具扩展通知渠道,打造更智能的 Grafana可视化告警 体系。
提示:生产环境中请务必配置 HTTPS、用户认证及权限控制,确保监控系统安全。
