监测的最佳实践

实施有效且高性能的监控工具可能会对您的业务产生巨大影响。如果没有正确的监控工具,您的关键任务产品可以遇到未经请求的破坏和中断,从而在危险中享有客户体验和公司声誉。即使是最小的事件也可能对客户忠诚度产生连锁反应,因此必须确保正确的工具和流程以防止这种情况的发生非常重要。

因此,重要的是要定义,实施和执行一种简化和有效的方法来监视和维护关键业务产品和服务。有了具体的流程,它使您的团队能够在受到客户影响之前有效地对问题采取行动。

本文将列出监视系统事件的最佳实践和流程。这些最佳实践将减少停机的长度和影响,并帮助您防止它们 - 这意味着更好的业务结果。您将能够在更少的时间内创建和实施有效的监控策略,而不会失去睡眠。

为了更好地理解监视和提醒最佳实践,让我们定义这些术语的基础。

什么是监视和警报?

监视

监视is the process of gathering and analyzing data related to a critical system, service, or application’s performance.. Monitoring helps ensure systems and services are running as intended and helps teams keep a pulse on the performance and availability of any internal or external application, system, or service. If a disruption or outage occurs, teams are immediately aware via the monitoring system and can take action towards a resolution immediately.

警报

警报是通过基于系统,服务或应用程序的性能和/或状态中任何更改的各种通信工具通知利益相关者的过程。也可以在其他非系统相关的操作中使用警报,包括电子邮件,更新,旋转更改等。

决定要监视什么

因此,您已经承诺监视您的系统或更好地监视它们。选择要监视的内容是关键的第一步。当您选择正确的事件进行监视时,您可以确保以下内容:

  • 您在客户或您的经理面前了解关键任务问题
  • 您始终对系统性能和状态的准确,实时视图
  • 关键基础架构失败时,您没有被抓住

这些都是仔细考虑监视前期决定的令人信服的理由。但是您如何实际执行?对于客户体验来说,有许多指标可能很重要。要识别这些,您需要将任何可用的指标分为两个类别之一。

工作指标:

工作指标是您服务生产的一种数据集,例如网站访问,查询,收入等。这些都是可行的指标,这意味着它们非常重要,并且有可能帮助进一步发展您的业务和表面领域的增长。可以改善。

资源指标:

资源指标是有助于生产工作指标的指标。这可能包括CPU,内存使用情况,网络等。这些指标很有用,但主要是为了评估某些系统和数据库中的容量和可用性。

将资源指标视为您的角色在视频游戏和工作指标中拥有多少生活,将其视为角色的成就。

知道您在CPU上拥有多少空间或剩下多少内存是有用的,您应该监视工作指标。但是,请确保您监控的工作指标是可行的。可操作的工作指标的一个示例是Web服务器是您使用多少网页,而每秒没有错误。这是一个工作指标,因为如果您要提供的零页面,您的网站根本没有运行 - 它已经下降了。

一旦选择了要监视的指标,请按照紧急情况对它们进行排名,从而根据您的业务最重要。然后,确定每个指标应通知谁。您可以使用Pagerduty分配升级政策,该政策警告第一道防线(分配给该指标的人),然后第二个人不承认警报,依此类推。

要了解有关升级政策的更多信息,请访问Pagerduty的知识库。

移动应用程序的指标

上面讨论的指标用于Web服务。现在,我们将介绍监视移动应用程序的指标。移动应用程序面临与Web服务不同的问题。例如,您可能正在处理不同的OS版本或载体延迟。

对于移动应用程序,应监视两个关键指标:

正常运行时间

正常运行时间衡量应用程序的正常运行时间,即不会崩溃的应用程序负载的百分比。为了保持竞争力的正常运行时间应该为99%。

响应能力

响应能力衡量您的应用程序响应速度和解释命令的速度。为了满足您的用户,在大多数情况下,应用程序响应率应不到一秒钟。

警报和可见性

至关重要的是,以最适合他们需求的方式通知团队。员工应该能够选择他们的警报方式;无论是通过SMS,推送通知还是电话。不建议发送电子邮件通知,因为它们容易丢失,并且无法提供团队可见性。

为了使对警报和可见性的响应更容易实现,将您的所有活动都放在一个地方很有帮助,以便员工可以拥有减轻事件所需的所有信息。

所有团队成员都应访问这个集中位置。不可用的警报应被抑制,以便员工可以专注于可以缓解的警报。该集中式平台将用于分析分析,该分析可以帮助团队在验尸期间找到解决事件的解决方案。

为了获得可见性和洞察事件,来自不同系统的所有警报都应在一个地方。借助Pagerduty的350多个自然集成,Pagerdut万博pc版下载y可以使您了解所有警报(以了解更多查看Pagerduty的集成页面)。

文化

为了确保事件得到平稳而有效的处理,重要的是要培养组织内的问责制和透明性文化。这是通过将客户放在首位来实现的,以便企业创建并在客户围绕客户,他们需要的东西,他们想要的东西以及产品如何使他们的生活更轻松。

为了帮助员工在监视程序并确认警报时拥有透明的系统,请将事件响应时间视为绩效指标。确保在事件期间有一个既定的最佳实践清单,并在事件中设定角色。
要了解有关待命和一些最佳实践的更多信息,请查看Pagerduty的OPS指南。

结论

监视程序并协调警报是必要的,但是如果没有正确的工具,可能很困难。Pagerduty是整个监测堆栈的中枢神经系统,使您的团队在所有关键业务系统和服务中都具有实时可见性。

要了解有关监视最佳实践的更多信息,请注册今天与Pagerduty进行免费14天的免费试用。

Baidu