在日常使用或管理 Ubuntu 服务器时,系统可能会出现卡顿、服务无响应、资源占用过高等问题。掌握基本的 Ubuntu系统监控 和 故障排除指南 技能,可以帮助你快速定位并解决问题,保障系统稳定运行。本文将从零开始,手把手教你如何监控系统状态并进行常见故障排查。
一、常用系统监控工具
Ubuntu 自带多个命令行工具,可用于实时监控 CPU、内存、磁盘和网络等资源使用情况。
1. top 命令:实时查看进程资源占用
在终端中输入:
top
该命令会显示当前系统中 CPU 和内存占用最高的进程。按 q 退出。
2. htop 命令(更友好的交互式监控)
htop 是 top 的增强版,支持鼠标操作和颜色高亮。如未安装,可先执行:
sudo apt updatesudo apt install htop
然后运行:
htop
3. df 和 du:磁盘空间监控
查看磁盘整体使用情况:
df -h
查看某个目录占用空间(例如 /var/log):
du -sh /var/log
二、常见故障场景及排查方法
1. 系统变慢或无响应
首先使用
top或
htop查看是否有进程占满 CPU 或内存。若发现异常进程(如未知程序占用 100% CPU),可记录其 PID 并终止:
sudo kill -9 [PID]
2. 服务无法访问(如 Web 服务)
检查服务是否正在运行:
sudo systemctl status apache2
若服务未启动,尝试启动它:
sudo systemctl start apache2
同时检查防火墙是否放行端口(如 80 或 443):
sudo ufw status
3. 磁盘空间不足
使用
df -h确认哪个分区已满。常见“罪魁祸首”是日志文件。可清理旧日志:
sudo journalctl --vacuum-time=7d # 清理7天前的系统日志sudo rm /var/log/*.gz # 删除压缩的旧日志(谨慎操作)
三、进阶建议:定期监控与日志分析
对于生产环境的 Ubuntu 服务器,建议配置自动监控工具如
netdata或
prometheus + grafana,实现可视化监控告警。此外,养成定期检查
/var/log/syslog和
/var/log/kern.log的习惯,有助于提前发现潜在问题。
通过掌握这些基础的 Linux性能监控 技巧和 Ubuntu服务器运维 方法,即使是初学者也能有效应对大多数系统异常。记住:早发现、早处理,是保障系统高可用的关键!
