← 返回首页

告警快速参考

高优先级 (P1)

CPU > 90% 持续 5 分钟

# 检查占用最高的进程
top -b -n 1 | head -20
dmesg | tail

内存 > 95% 持续 5 分钟

# OOM killer 是否激活?
journalctl -k | grep -i "killed process"

磁盘使用 > 90%

du -sh /* 2>/dev/null | sort -rh | head -10

中优先级 (P2)

响应时间 > 2 秒

  • 检查应用日志中的慢查询
  • 检查上游服务健康状态
  • 必要时扩容: kubectl scale deployment --replicas=+2

错误率 > 1%

  • 检查最近的部署
  • 必要时回滚: helm rollback <release>

磁盘 I/O 等待 > 20%

iostat -x 1 5

低优先级 (P3)

证书到期 < 30 天

echo | openssl s_client -connect hostname:443 2>/dev/null | openssl x509 -noout -dates

连接池使用 > 80%

检查应用连接池设置,必要时扩容数据库。