标准化的故障排查手册 · 标准操作流程 · 命令速查表,开箱即用的运维指南
按场景查找你需要的内容
标准化的故障排查手册,含诊断步骤与验证要点
标准操作流程,保证操作一致性与安全性
常用命令和配置速查表,随用随查
按时间顺序排列的最新内容
PostgreSQL 主从故障转移标准流程,含故障确认、从库提升、连接字符串更新及验证测试步骤。
标准化服务重启流程,覆盖健康检查、回滚策略与重启后验证步骤。
从告警触发到故障恢复的完整事件响应 SOP,含沟通模板与复盘要求。
常见告警阈值与处理建议速查表,覆盖 CPU、内存、磁盘、网络等关键指标。
容器日志检查、资源监控、镜像清理与网络诊断的常用命令与实操技巧。
Kubernetes Pod 状态诊断、重启策略、日志采集与调度问题排查指南。
Shell 表达式、流程控制、ps/top/kill 进程命令与任务控制一篇速通,覆盖 SRE 日常 80% 用法。