站点可靠性工程文档中心

SRE Wiki 让运维更简单

标准化的故障排查手册 · 标准操作流程 · 命令速查表,开箱即用的运维指南

4运维手册
1标准操作
1快速参考

文档分类

按场景查找你需要的内容

运维手册

标准化的故障排查手册,含诊断步骤与验证要点

标准操作

标准操作流程,保证操作一致性与安全性

快速参考

常用命令和配置速查表,随用随查

全部文档

按时间顺序排列的最新内容

PostgreSQL 主从故障转移标准流程,含故障确认、从库提升、连接字符串更新及验证测试步骤。

标准化服务重启流程,覆盖健康检查、回滚策略与重启后验证步骤。

从告警触发到故障恢复的完整事件响应 SOP,含沟通模板与复盘要求。

常见告警阈值与处理建议速查表,覆盖 CPU、内存、磁盘、网络等关键指标。

容器日志检查、资源监控、镜像清理与网络诊断的常用命令与实操技巧。

Kubernetes Pod 状态诊断、重启策略、日志采集与调度问题排查指南。

Shell 表达式、流程控制、ps/top/kill 进程命令与任务控制一篇速通,覆盖 SRE 日常 80% 用法。

开源项目

基于开源 AIOps 项目搭一个 SRE 实验排障 AI Agent,从架构选型到 Prompt 调优的全程记录,6 篇连载。第 1 篇已发布。

基于本博客封装的 Python 一键工具,5 分钟拥有自己的 GitHub Pages 博客。支持 Python + Docker 两种方式,含完整教程。