← 返回首页

事件响应标准操作流程

严重等级

等级响应时间示例
P115 分钟完全宕机、数据丢失
P21 小时部分服务中断
P34 小时性能下降

响应步骤

1. 确认事件

  • 在 PagerDuty 中认领事件
  • 创建事件频道: #inc-YYYYMMDD-描述

2. 评估

  • 查看监控仪表盘
  • 确定影响范围
  • 分配角色: 负责人、沟通者、技术支持

3. 缓解

  • 每 15 分钟更新一次状态
  • 优先采用最快的缓解方案
  • 实时记录操作

4. 解决

  • 确认指标恢复正常
  • 更新状态页面
  • 在 PagerDuty 中关闭事件

5. 后续跟进

  • 48 小时内安排复盘会议
  • 在 Jira 中创建待办事项
  • 如有遗漏则更新运维手册

联系方式

  • 值班 SRE: PagerDuty
  • 工程负责人: @eng-lead
  • 管理层: @mgt-oncall