Pagerduty

自动化是复杂,现代IT系统管理的关键组成部分。自动化有助于团队避免错误,提高可靠性并减少日常任务。虽然建立生产环境可能依赖许多自动化工具,但该环境的生命周期将包括计划外事件和其他经常手动执行的工作。

事件中的人类错误会增加解决的时间,甚至使问题变得更糟。当我们的系统在非工作时间内经历事件时,我们的团队可能会远离计算机,甚至无法入睡。我们想最大程度地减少需要人为干预的事件的数量,并将警告响应者团队仅限于需要人类元素的那些警报。

这是谁?

此资源适用于开发或操作想要在事件响应过程中有效使用自动化工具的软件应用程序的团队。

什么覆盖?

其中的自动化用例

许多团队已经使用大量自动化来帮助以可靠,可重复的方式完成任务。本节介绍了以下示例:

自动化事件响应过程

自动化可以帮助您的团队更有效,有效地应对事件。本节涵盖了回应事件的工作流程:

事件修复的自动化

在警报后实际解决问题是团队不间断睡眠之旅的下一步。本节是关于管理事件修复过程的自动化的更深入的讨论。

自动事件分辨率开始

当您进行自动化以进行事件修复时,有些事情要记住:

在受监管环境中自动化

当团队自动化工作流程时,法规可能会提出独特而有趣的挑战。

自动化的挑战

并非每个人都会对自己的工作中的一部分自动化的前景充满热情 - 即使他们不特别喜欢某些任务。将自动化目标引入已经建立的团队存在挑战。这些挑战中的一些知名度很高,而另一些则更为抽象。我们可以参考有关系统自动化数十年的一些技巧和指导。

参考和进一步阅读

我们用来创建此文档的一些参考文献。如果您有有关此列表中添加的建议,请告诉我们!

执照

此文档是根据Apache许可证2.0提供的。用普通的英语,这意味着您可以使用和修改本文档,并在商业上和私人使用。但是,您必须包括任何原始版权通知和原始许可证文件。

无论您是否是Pagerduty客户,我们都希望您能够在自己的公司内部使用此文档。您可以查看所有的源代码此文档在我们的GitHub帐户。请随意分配存储库,并将其用作您自己内部文档的基础。

Baidu