不同的角色

我们在Pagerduty的事件响应团队有几个主要角色。某些角色每个事件只有一个人(例如IC),而其他角色可以有多个人(例如主题专家,中小型企业)。这一切都是为了团队团结在一起,解决问题并迅速找到解决方案。

这是我们角色层次结构的粗略概述,其余部分讨论了每个角色。

事件响应结构

在较大的复杂事件中,可以调整角色结构以说明子团队的创建。了解我们如何处理复杂的事件了解更多信息。

柔性结构

并非打算在每个事件中都有一个不同的人填补每个角色。例如,如果事件的范围足够小,则代理人也可能承担抄写员和内部联络的责任。结构应根据事件的大小和范围进行灵活和规模。


事件指挥官(IC)

它是什么?

事件指挥官充当了当前正在发生的事情以及在重大事件期间将会发生的事情的单一来源。它们具有各种形状,尺寸和颜色。

为什么有一个?

随着任何软件系统的大小和复杂性的增长,事情破裂并引起事件。需要该事件指挥官来帮助推动重大事件以解决。

责任是什么?

  1. 帮助准备重大事件,
    • 重大事件的设置通信渠道。
    • 当发生重大事件时,将人们漏洞到这些通信渠道。
    • 培训团队成员如何在重大事件中进行交流并培训其他事件指挥官。
  2. 将重大事件驱动到解决方案,
    • 让每个人都进入同一通信渠道。
    • 从团队成员那里收集信息,以获得其服务/所有权状况。
    • 收集建议的维修操作,然后建议采取维修措施。
    • 委派所有维修操作,事件指挥官不是解析器。
    • 成为系统状态的单一权威
  3. 验尸,
    • 事件发生后立即创建初始模板,以便人们可以在新鲜时提出思想。
    • 事件结束后分配后列,这可以在通话后完成。
    • 与团队负责人/经理一起安排预防措施。

他们是谁?

事件指挥官的任何人都会说话。学员通常在事件指挥官影子时间表上。

我怎么能成为一个?

看看我们的事件指挥官培训指南


它是什么?

代理人是事件指挥官的直接支持角色。这不是一个人只观察到的阴影。预计该代理人将在事件期间执行重要任务。

为什么有一个?

对于IC而言,重要的是要专注于手头的问题,而不是担心记录步骤或监视计时器。代理人有助于支持IC并将其集中在事件上。

责任是什么?

该代理人预计:

  1. 向事件指挥官提出问题,否则可能无法解决(请密切关注已经开始的计时器,盘旋回到滚动电话中的错过物品等)。
  2. 成为“热待机”事件指挥官,如果主要需要过渡到中小型企业,或者必须远离IC角色。
  3. 管理事件通话,并准备好如果事件指挥官指示,请从呼叫中删除人们。

他们是谁?

任何事件指挥官都可以充当代理。代表需要作为事件指挥官接受培训,因为他们可能需要接管指挥官。

我怎么能成为一个?

看看我们的副培训指南。代表们也需要被培训为事件指挥官


它是什么?

抄写员记录了事件的进展时间表,并确保捕获所有重要的决策和数据以供以后审查。

为什么有一个?

事件指挥官将需要专注于手头的问题,主题专家将需要专注于解决事件。重要的是要捕获事件的时间表,以便可以在验尸期间对其进行审查,以确定我们的表现如何,因此我们可以准确地确定当时可能没有注意到的任何其他影响。

责任是什么?

抄写员有望:

  1. 确保记录事件通话。
  2. 在松弛重要的数据,事件和动作中注意到它们。具体来说:
    • 采取的关键动作(例如:“ prod-server-387723正在重新启动以尝试删除卡住锁”)
    • 状态报告由IC提供时(示例:“我们在SEV-1中,服务A当前由于锁定锁而没有处理事件,X正在重新启动应用程序堆栈,在3分钟内进行下一个检查”)))
    • 在通话期间或结束评论中的任何关键标题(例如:“注意:(鲍勃B)我们应该有更好的方法来确定卡住锁。”)

他们是谁?

任何人都可以在事件期间充当抄写员,并在通话开始时被事件指挥官选中。通常,代理人将充当抄写员,但这不一定需要发生,对于更大的事件可能是不可能的。

我怎么能成为一个?

跟随我们抄写员培训指南,然后将事件指挥官通知您要考虑下一个事件的抄写。


主题专家

它是什么?

主题专家(SME),有时称为“解析器”,是域专家或指定的组件或服务所有者,是Pagerduty软件堆栈的一部分。

为什么有一个?

IC和代理人并不是全知的超级生物。当服务存在问题时,需要该服务的专家才能快速帮助识别和解决问题。

责任是什么?

  1. 能够诊断服务的常见问题。
  2. 能够快速解决事件中发现的问题。
  3. 简洁的沟通技巧,专门用于罐头报告:
    • 条件:服务的当前状态是什么?是否健康?
    • 行动:如果服务不在健康状态,需要采取什么行动?
    • 需求:解决方案需要什么支持才能执行动作?

他们是谁?

任何被认为是“领域专家”的人都可以充当事件的解析器。通常,该服务的主要呼叫将充当该服务的中小型企业。

我怎么能成为一个?

看看我们的主题专家培训指南。您还应该与您的团队和服务所有者进行讨论,以确定您对特定服务的要求。


客户联络

它是什么?

负责直接或通过我们的公共沟通渠道与客户互动的人。通常是客户支持团队的成员。

为什么有一个?

所有其他角色都将积极地识别原因和解决问题,我们需要一个纯粹专注于事物的客户互动方面的角色,以便在需要的适当关心和所需的关注下,可以正确地完成。

责任是什么?

  1. 发布有关事件(Twitter,状态页等)的任何公开面对的消息。
  2. 通知任何报告他们受事件影响的客户的IC。
  3. 完成后,向客户提供外部消息。

他们是谁?

支持团队的任何成员都可以充当客户联络。

我怎么能成为一个?

跟随我们客户联络培训指南,并与支持团队讨论成为我们的下一个客户联络。


内部联络

它是什么?

负责与内部利益相关者互动的人。无论是通知内部团队事件,还是动员组织内的其他响应者。

为什么有一个?

对于更大的事件,我们可能涉及多个团队。拥有专门的联络人来动员这些团队,并提高他们的速度,以使其余的响应者释放以处理事件。

责任是什么?

  1. Page SME或其他通话工程师按事件指挥官指示。
  2. 按照事件指挥官的指示通知组织内的其他团队(例如财务,法律,营销)。
  3. 与利益相关者联络,并根据需要提供状态更新。
  4. 与内部利益相关者互动以回答他们的问题,以保持主要呼吁分散注意力。

他们是谁?

事件指挥官在事件响应期间指定的任何人。

我怎么能成为一个?

跟随我们内部联络培训

Baidu