故障复盘的简洁框架黄金三问

来源：框架时间：2022/6/20

最近跟团队在做很多历史故障的复盘，看怎么才能够挖掘出更深层次的一些问题。

做的第一件事情，就是整理复盘框架，这个框架之前我在我的极客时间课程中分享过，就是我提出的黄金三问（ThreeGoldenQuestions）。

非常简洁，这次借着实操，打算更深入的分享下。先分享框架，再分享内在的细分环节。

故障的原因是什么？

触发原因深层原因（可以多个如技术层面+流程管控层面）

怎么做，后面才能完全避免同样的故障？

生产环境上是否有同样的问题，应该立即执行的巡检和规避措施什么？产品技术层面要做什么改进？架构设计要做什么改进？如涉及产品功能，测试层面需要做什么改进？管理/流程/机制上要做什么？（如高压线、质量保障措施、发布变更流程）

怎么做，下次遇到类似问题，可以更快的恢复业务？

应急流程/机制需要如何改进，可以帮助更快的判断和决策？（如信息同步、故障等级定义）监控指标和告警机制是否可以完善，可以更快的发现？技术层面要有什么快速恢复的手段？（限流、降级、隔离、切换等）

Onemorething，我们还可以做些什么？

发现之前也分享了一些关于故障的随想，也把链接放在下面一并分享下：

《故障管理中的涅槃重生》

《故障处理为什么要以人为本？》

《再好的技术，再完美的规章，也无法取代人自身的素质和责任心》

《谈谈我对公有云故障的看法》

《从微盟36小时故障，谈谈数据安全和备份这个事》

Cheng哥

感谢支持