Pagerduty博客

智能警报分组系列摘要

由Pagerduty数据科学家VI的Chris Bonnell合着

欢迎使用有关智能警报分组的EI架构系列中的最后一篇文章。希望您喜欢这个系列,如果您想看看我们以前的任何帖子,请使用EI-Architecture系列标签。让我们花点时间回顾一下我们学到的一切。

关键要点

智能警报分组的默认行为基于事件管理中的抽象模式以及使用机器学习模型。这意味着该工具可以在实施方面做出许多有教育的猜测,但可能不会在每个环境中产生完美的匹配。为了弥补这一点,您可以利用合并,标题和服务设计来改善分组行为。

合并行为

事件是通过称为的过程分组的合并在Pagerduty应用程序中。通常,任何事件都可以与其他任何事件合并。智能警报分组特别分析了试图确定是否应合并或分离为新事件时的警报标题字段,如我们在这个帖子。如果警报不适当地合并为一个常见事件,您可以采取步骤将其分开并将其移动到属于它们的位置。机器学习模型可以通过每次迭代来加强行为,因此,是否融合了警报,或者移动将改善未来的行为。

警报标题

由于智能警报分组基于警报标题字段的合并行为,因此我们涵盖了警报标题的基础知识。较早的帖子。这里有三个重要的收获:

  • 警报标题应受益于人类和机器学习,并偏向机器学习,因为其余事件细节应在描述中。
  • 请记住,由于机器无法理解上下文,因此必须利用计算机可以将其识别为“唯一”与“常见”的东西很重要。
  • 由于警报标题的哪些部分将在推送通知中显示出短的字符限制,因此请在标题而不是更晚的标题中放置面向人类的文本。

要挖掘如何实施这些方法,请查看帖子的机器学习部分以及文本自然语言处理简介在“朝向数据科学博客”上的博客文章。

服务设计

我们介绍的最后一个概念是讨论服务设计。总体上的想法是,默认情况下,相同服务上的类似警报被认为比其他服务的警报更高度关联。这里有很多话要说,因为弄清楚您的服务定义如何真正驱动了您的实施方式”服务”在Pagerduty应用程序中。通常,如果您不确定两个“事物”是否应该是单独的服务,则模仿所需的升级途径。如果他们俩都由同一团队或人民所有,那么考虑到Pagerduty申请中的一项服务将继续尊重这一升级,并以更加高度相关的额外好处。如果不同的团队负责他们,或者他们在逻辑上以您不希望他们的警报更加高度关联的方式与众不同,则将其定义为单独的服务。至于拥有团队,如果您想了解有关服务定义和所有权的最佳实践的更多信息,请查看我们的全服务所有权OPS指南

从这往哪儿走

就是这样!非常感谢您抽出宝贵的时间来了解有关如何充分利用智能警报分组的更多信息。如果您想长期参考这些帖子,请添加书签ei-Architecture系列标签。如果您想进一步讨论,请看看我们社区论坛。有关深入的问答,请与我们的支持团队联系。

Baidu