Pagerduty徽标
资源
文章
什么是事后事件?

什么是事后事件?

一个验尸(或验尸)是一个过程,旨在帮助您从过去的事件中学习。它通常涉及事件发生后不久的分析或讨论。

事件或事件发生后不久,验尸通常涉及无责任分析和讨论。产生了工件,其中包括详细说明造成事件的问题,以及要采取的步骤列表,以防止将来再次发生类似的事件。讨论中还应包括对事件响应过程本身如何工作的分析。验尸的价值来自帮助制度化持续改进的文化。这样,当不可避免地使用任务或关键业务系统发生另一次事件时,团队做好了准备。

随着您的系统规模并变得越来越复杂,不可避免的失败是不可避免的,评估和补救的参与和耗时,重复重复出现的错误变得越来越痛苦。当您需要时没有数据很昂贵。

简化验尸过程是帮助您的团队从他们的验尸时间投资中获得最大收益的关键:花费更少的时间进行验尸,同时提取更有效的学习,这是提高运营成熟度的速度。实际上,验尸的真正价值来自帮助围绕频繁且迭代的改进制度化积极的文化。

为什么会验尸?

在事件响应期间,该团队100%专注于恢复服务。他们不应该浪费时间和精神思考如何最佳地做某事或深入研究导致事件的原因。这样做可能会进一步延迟补救工作并消除解决过程。这就是为什么验尸至关重要的原因 - 一旦问题不再影响用户,他们提供了一个和平时期的机会来反映。验尸过程推动了专注,灌输了一种学习文化,并确定了否则会丢失的改进机会。

如果没有验尸,您就无法识别自己在做正确的事,可以改进的地方,最重要的是,如何避免将来犯同样的错误。撰写有效的验尸使您可以从错误中快速学习并改善系统和流程。一个精心设计的无罪后验尸允许团队不断学习,这是一种迭代改善基础架构和事件响应过程的方式。确保编写详细且准确的邮政死刑,以便从中获得最大的好处。

组织可以以略有不同的方式参考验尸过程:

  • 学习评论
  • 行动后审查
  • 事件审查
  • 事件报告
  • 事后评论
  • 根本原因分析(或RCA)

简化验尸过程

有关进行邮政为组织的细节因组织而异。不管该过程如何,邮政验尸的主要目的应该是学习,无论是关于要管理的系统,所遵循的过程还是组织在危机期间的执行方式。可以根据遵循的过程实现其他目标,包括确定和实施系统或过程改进。

通常,一份有效的验尸报告讲述了一个故事。事件事后报告应包括以下内容:

  • 关于发生的事情的高级摘要
    哪些服务和客户受到影响?这个问题是多长时间和严重的?谁参与了回应?我们最终如何解决问题?
  • 根本原因分析
    失败的起源是什么?我们为什么认为这发生了?
  • 诊断,评估和解决的步骤
    采取了什么行动?哪个有效?哪些有害?
  • 重要活动的时间表
    从聊天对话,事件细节等中集中关键活动。
  • 学习和下一步
    进展顺利?什么不好?我们如何防止此问题再次发生?

无罪的尸体

一个无罪的验尸试图了解如何犯错而不是谁犯错,这对于理解失败至关重要。Pagerduty工程经理Arup Chakrabarti解释说:“您忽略了'这个人做的那部分'。”“最重要的是客户影响,这就是您关注的目的。”这是许多领先组织(例如Etsy)利用的关键工具,例如无罪的邮政事故,为了确保验尸具有正确的语气,使工程师能够通过消除对惩罚的恐惧来真正客观地说明发生的情况。

有些人说是无罪的邮政事故似乎不可能因为人类是为了责备人的。他们主张“责备”邮政事票,在其中团队承认本能要归咎于本能,但将注意力集中在可行的外卖上。

无论哪种术语与您的团队产生共鸣,关键点是验尸讨论应该是安全的空间,在该空间中,团队可以完全诚实和面向未来的改善,而不是将其他人归咎于他人。

您什么时候做邮政事故?

每个重大事件(任何sev-2或sev-1的事件)后,团队应进行验尸。这包括任何时间触发事件响应的时间 - 即使后来发现严重程度实际上较低,这是一个错误的警报,或者在没有干预的情况下迅速恢复。在这些情况下,不应忽略验尸,因为它仍然是审查事件响应过程中所做的事和不良好工作的机会。如果事件不应该触发事件响应,那么值得理解为什么可以对其进行调节,以避免将来不必要地触发事件响应。进行此分析和后续行动将有助于防止警报疲劳。

事件解决后不久,验尸将完成,而上下文对于所有响应者仍然是新鲜的。正如解决重大事件发生时的重中之重一样,完成验尸的优先级优先于计划的工作。完成验尸是事件响应过程的最后一步。延迟验尸延迟关键学习,这将阻止事件反复出现。

谁负责验尸?

在重大事件的结尾,或之后不久事件指挥官选择并直接通知一名响应者以拥有邮政为验尸。请注意,验尸所有者不仅负责完成验尸本身。撰写验尸是一项合作的努力并应包括所有参与事件响应的人。工程学将领导分析,但验尸过程应涉及管理,客户支持和业务通信团队。验尸所有者与所有需要参与的人协调,以确保及时完成。

重要的是要指定单个所有者避免旁观者效应。如果您要求所有响应者或团队进行尸检,则冒着假设其他人正在这样做的每个人的风险,因此没有人这样做。选择所有者时,您可以选择符合以下任何条件的单个人:

  • 事件期间扮演领导角色
  • 执行了导致稳定服务的任务
  • 是最受影响的服务的主要呼叫响应者
  • 手动触发事件以启动事件响应

做尸体并不是惩罚,所有者不是“造成”事件的人。有效的验尸是无罪的。在复杂的系统中,从来没有一个原因,而是导致失败的因素组合。所有者只是一个负责任的个人,执行某些管理任务,跟进信息,并将邮政验证驱动到完成。撰写验尸最终将是一项协作的努力,但是选择单个所有者进行协作有助于确保完成。

最佳实践和更多

PageTuty提供完全免费的验尸手册共享行业的最佳实践,包括验尸模板。使用它来帮助您对自己的验尸过程进行形式化,以使您的团队尽可能轻松地回应问题。更好的是,邮政验证现在已成为Pagerduty平台的一部分 - 注册免费14天试用并通过自动时间表构建,协作编辑,可行的见解等简化整个验尸过程。

Baidu