在现代IT运维中,对服务器状态进行实时监控和及时告警是保障系统稳定运行的关键。本文将详细指导你如何在RockyLinux上部署一套完整的监控告警系统,使用业界主流的开源工具组合:Prometheus(数据采集与告警) + Grafana(可视化面板)。即使你是Linux小白,也能轻松完成配置。
一、准备工作
首先确保你的RockyLinux系统已更新并具备以下条件:
RockyLinux 8 或 9(本文以RockyLinux 9为例) 具有sudo权限的用户 防火墙开放9090(Prometheus)、3000(Grafana)端口执行系统更新:
sudo dnf update -ysudo dnf install -y wget curl git
二、安装并配置Node Exporter(系统指标采集器)
Node Exporter 是 Prometheus 官方提供的用于采集主机系统指标(CPU、内存、磁盘、网络等)的工具。
1. 下载并解压 Node Exporter:
wget https://github.com/prometheus/node_exporter/releases/download/v1.7.0/node_exporter-1.7.0.linux-amd64.tar.gztar xvfz node_exporter-1.7.0.linux-amd64.tar.gzsudo mv node_exporter-1.7.0.linux-amd64/node_exporter /usr/local/bin/
2. 创建 systemd 服务文件:
sudo tee /etc/systemd/system/node_exporter.service <
3. 启动并启用服务:
sudo systemctl daemon-reloadsudo systemctl start node_exportersudo systemctl enable node_exporter
此时,访问
http://你的服务器IP:9100/metrics应能看到系统指标数据。
三、安装并配置Prometheus(监控核心)
Prometheus 负责从 Node Exporter 拉取数据,并提供告警功能。
1. 创建 prometheus 用户并下载安装包:
sudo useradd --no-create-home --shell /bin/false prometheuswget https://github.com/prometheus/prometheus/releases/download/v2.45.0/prometheus-2.45.0.linux-amd64.tar.gztar xvfz prometheus-2.45.0.linux-amd64.tar.gzsudo mv prometheus-2.45.0.linux-amd64 /opt/prometheus
2. 创建配置目录和配置文件:
sudo mkdir /etc/prometheus /var/lib/prometheussudo chown prometheus:prometheus /var/lib/prometheus
编辑主配置文件
/etc/prometheus/prometheus.yml:
global: scrape_interval: 15sscrape_configs: - job_name: 'node' static_configs: - targets: ['localhost:9100']
3. 创建 systemd 服务:
sudo tee /etc/systemd/system/prometheus.service <
4. 启动 Prometheus:
sudo systemctl daemon-reloadsudo systemctl start prometheussudo systemctl enable prometheus
现在可通过
http://你的服务器IP:9090访问 Prometheus Web 界面。
四、安装并配置Grafana(可视化面板)
Grafana 提供美观的仪表盘,用于展示 Prometheus 收集的数据。
1. 添加 Grafana 官方仓库并安装:
sudo tee /etc/yum.repos.d/grafana.repo <
2. 启动 Grafana 服务:
sudo systemctl start grafana-serversudo systemctl enable grafana-server
访问
http://你的服务器IP:3000,默认账号密码为
admin/admin,首次登录会提示修改密码。
3. 在 Grafana 中添加 Prometheus 数据源:
登录后点击左侧齿轮图标(Configuration)→ Data Sources 点击 “Add data source” → 选择 “Prometheus” URL 填写:http://localhost:9090 点击 “Save & Test”,看到绿色提示即成功4. 导入现成的监控面板(推荐使用ID:1860):
点击左侧 “+” → Import 在 “Import via grafana.com” 输入 1860 选择刚才添加的 Prometheus 数据源,点击 Import五、配置告警规则(Alertmanager 简化版)
我们先用 Prometheus 内置的告警功能实现简单通知(如 CPU 使用率 > 80%)。
1. 创建告警规则文件
/etc/prometheus/alert.rules.yml:
groups:- name: system_alerts rules: - alert: HighCpuUsage expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80 for: 2m labels: severity: warning annotations: summary: "High CPU usage on {{ $labels.instance }}" description: "CPU usage is above 80% for more than 2 minutes." 2. 修改
/etc/prometheus/prometheus.yml,加入 rule_files:
rule_files: - "alert.rules.yml"# 其他配置保持不变...
3. 重载 Prometheus 配置:
sudo systemctl reload prometheus
进入 Prometheus Web 界面 → Alerts,即可看到定义的告警规则状态。
六、总结
通过本教程,你已在 RockyLinux 上成功部署了一套完整的 RockyLinux监控告警配置 系统,涵盖了 Prometheus监控部署、Grafana可视化监控 和基础的 Linux系统告警设置。这套方案免费、开源、可扩展,适合个人开发者、中小企业乃至大型生产环境使用。
后续你可以进一步集成 Alertmanager 实现邮件、企业微信、钉钉等多渠道告警,或添加更多 Exporter 监控数据库、应用服务等。
温馨提示:生产环境中请务必配置防火墙规则,限制 Prometheus 和 Grafana 的访问来源,保障系统安全。
