高优先级 (P1)
CPU > 90% 持续 5 分钟
# 检查占用最高的进程
top -b -n 1 | head -20
dmesg | tail
内存 > 95% 持续 5 分钟
# OOM killer 是否激活?
journalctl -k | grep -i "killed process"
磁盘使用 > 90%
du -sh /* 2>/dev/null | sort -rh | head -10
中优先级 (P2)
响应时间 > 2 秒
- 检查应用日志中的慢查询
- 检查上游服务健康状态
- 必要时扩容:
kubectl scale deployment --replicas=+2
错误率 > 1%
- 检查最近的部署
- 必要时回滚:
helm rollback <release>
磁盘 I/O 等待 > 20%
iostat -x 1 5
低优先级 (P3)
证书到期 < 30 天
echo | openssl s_client -connect hostname:443 2>/dev/null | openssl x509 -noout -dates
连接池使用 > 80%
检查应用连接池设置,必要时扩容数据库。