事后分析仅在发生中断、安全事故或数据丢失后进行,但您不应该在那个混乱的时刻开始准备——那时您必须积极解决问题或确保每个人都记录下他们为以后补救而采取的步骤。您可以提前做些什么来为未来悲惨的自己取得成功做好准备?
进行模拟事件以熟悉压力情况
这就像在本地开发服务器上进行测试,测试应该在本地进行,而不是在 卡塔尔电话号码数据 生产环境中进行。在 Rewind,我们定期进行桌面练习(TTX),以帮助利益相关者了解我们的灾难恢复计划的现状以及我们可以在哪些方面进行改进。
你可以通过让你的团队在 TTX 上撰写事后分析来扩展这项练习,详细说明他们在虚构场景中为解决问题和减轻损害所做的事情,以便每个人都了解他们角色的期望。
确保您的可观察性和日志记录工具处于最佳状态
如果没有数据,事后分析的两方面都会遇到麻烦。首先,当你缺乏关于通常转瞬即逝或只需要发生一次的事件的信息时,根本原因分析就很难进行。其次,如果你不能解释你是如何发现问题或找到正确的解决方案的,你的事后分析必然会显得缺乏说服力。
这里有一个细微差别——如果您的可用性严重依赖第三方,如 SaaS 应用程序或云提供商,则应采取额外措施来监控其运行状况和性能。Datadog 和 Splunk 等可观察性平台具有可帮助您反复查询其 API 或端点的功能,以准确了解它们何时以及以何种方式可能出现故障。
为客户提供合法的状态页面
搜索引擎提供商 Kagi 最近因硬件更新和外部网络攻击不幸同时发生而停机了近 7 个小时。Hacker News上回应者的主要抱怨是什么?他们对发生的事情不透明。
用户 @muhammadusman 写道:“我是在 Discord 上报告此问题的用户之一。我喜欢 Kagi,但我有点失望地看到他们的状态页面显示一切正常。我认为这让我有点不安,这表明在影响真实用户的事件中,他们的状态页面没有得到优先考虑。”
请记住,您的状态页面将成为停机期间的第一个真实来源。它不可能全面(请将详细信息留给您的公开事后分析文档),但它可以展示您的公司文化的透明度和责任感。