何时使用
服务无响应、返回 5xx 错误、或请求挂起时使用此手册。
步骤 1:检查服务状态
systemctl status <service-name>
journalctl -u <service-name> -n 50
步骤 2:检查资源使用
top -p $(pgrep -d',' -f <service-name>)
df -h
步骤 3:重启服务
systemctl restart <service-name>
sleep 10
systemctl status <service-name>
步骤 4:验证健康状态
curl -s http://localhost:<port>/health
步骤 5:监控 5 分钟
在 Grafana 中观察错误率和延迟。
升级处理
如果重启失败或服务反复崩溃,请升级到 #sre-incidents 群组。