严重等级
| 等级 | 响应时间 | 示例 |
|---|---|---|
| P1 | 15 分钟 | 完全宕机、数据丢失 |
| P2 | 1 小时 | 部分服务中断 |
| P3 | 4 小时 | 性能下降 |
响应步骤
1. 确认事件
- 在 PagerDuty 中认领事件
- 创建事件频道: #inc-YYYYMMDD-描述
2. 评估
- 查看监控仪表盘
- 确定影响范围
- 分配角色: 负责人、沟通者、技术支持
3. 缓解
- 每 15 分钟更新一次状态
- 优先采用最快的缓解方案
- 实时记录操作
4. 解决
- 确认指标恢复正常
- 更新状态页面
- 在 PagerDuty 中关闭事件
5. 后续跟进
- 48 小时内安排复盘会议
- 在 Jira 中创建待办事项
- 如有遗漏则更新运维手册
联系方式
- 值班 SRE: PagerDuty
- 工程负责人: @eng-lead
- 管理层: @mgt-oncall