最近跟团队在做很多历史故障的复盘,看怎么才能够挖掘出更深层次的一些问题。
做的第一件事情,就是整理复盘框架,这个框架之前我在我的极客时间课程中分享过,就是我提出的黄金三问(ThreeGoldenQuestions)。
非常简洁,这次借着实操,打算更深入的分享下。先分享框架,再分享内在的细分环节。
故障的原因是什么?
触发原因深层原因(可以多个如技术层面+流程管控层面)怎么做,后面才能完全避免同样的故障?
生产环境上是否有同样的问题,应该立即执行的巡检和规避措施什么?产品技术层面要做什么改进?架构设计要做什么改进?如涉及产品功能,测试层面需要做什么改进?管理/流程/机制上要做什么?(如高压线、质量保障措施、发布变更流程)怎么做,下次遇到类似问题,可以更快的恢复业务?
应急流程/机制需要如何改进,可以帮助更快的判断和决策?(如信息同步、故障等级定义)监控指标和告警机制是否可以完善,可以更快的发现?技术层面要有什么快速恢复的手段?(限流、降级、隔离、切换等)Onemorething,我们还可以做些什么?
发现之前也分享了一些关于故障的随想,也把链接放在下面一并分享下:
《故障管理中的涅槃重生》
《故障处理为什么要以人为本?》
《再好的技术,再完美的规章,也无法取代人自身的素质和责任心》
《谈谈我对公有云故障的看法》
《从微盟36小时故障,谈谈数据安全和备份这个事》
Cheng哥感谢支持
转载请注明:http://www.0431gb208.com/sjszyzl/673.html