资源 什么是事件管理?

ITIL事件管理

简而言之,ITIL事件管理是事件和人类反应之间的一切。但是首先,让我们定义什么构成事件。

以此为核心事件只是IT服务的变化状态。ITIL事件管理的目标是检测和记录这些更改,以便获得IT服务的全面可见性。例如,用户登录,有关最近部署的信息或服务器维护的完成是技术团队需要跟踪的更改。尽管此类更改本质上并不意味着服务退化,但它们可以指示可能受到客户影响的问题。因此,必须根据需要收集,优先级和采取行动。

随着基础设施复杂性的增长,事件的规模也是如此IT操作团队必须管理。但是,尽管事件的规模呈指数增长,但管理这些事件的人数却没有。现在,许多组织每天都会在其系统中经历数千甚至数百万个事件,并且带宽和资源有限,几乎不可能有效地将优先级和分开的信号与噪音分开。

这是ITIL事件管理解决方案旨在解决的关键问题。解决方案围绕集成过程和工具而定向,以检测和收集事件,过滤噪声并策划适当的动作(通常通过将事件转发到事件管理或通知工具来完成)。随着IT服务交付的赌注越来越高,将事件管理和事件管理整合起来比以往任何时候都更加重要,以确保信号和动作之间不会浪费时间。

ITIL事件管理定义

为了为本文的其余部分奠定基础,让我们为操作数据模型中的典型对象建立一些定义:事件,警报,事件,通知。

一个事件只是一个事实,这既不是好是坏。它由一组或一组相关条件组成,该条件已受到监测并分类为可行的状态。

一个警报,另一方面,存在于监视(或其他)工具中,该工具跟踪监视器中的监视器失败的状态。本身,事件和警报(例如:磁盘为60%)无需直接向响应者分页,因为它们并非固有地影响客户。

一个事件是影响企业或客户的问题。事件具有与之相关的一个或多个警报和事件。使用上一个示例,应将几个相关的警报(磁盘60%,磁盘80%,磁盘完整等)分组为事件,因为这强烈表明服务质量的降级,这是对客户影响的。事件可能不是事件,因为它可能没有任何实际的客户影响,但是所有事件都是事件,因为事件为正在发生的事情提供了原始上下文。该事件应充当响应者活动,补救活动和验尸的数据中心,也应该是组织报告的数据中心。

最后,一个通知是一条消息 - 通常是电话,推送通知,短信或电子邮件 - 向他们通知他们问题的用户。

当ITIL事件管理与以人为本的方式与事件响应紧密整合时,最有效。团队不必手动扫描拥挤的电子邮件收件箱,也不应被数十或数百个冗余电话轰炸,以便优先级和诊断问题。将事件管理和事件管理带入单个平台可确保数据在提供集中的,真正的整体系统和响应上下文的同时可以加速分类。

典型的ITIL事件管理阶段

1.监视检测
事件通知通过特定的监视工具生成和检测。

2.事件过滤
事件通知将其记录为日志文件,或传达给事件或系统管理解决方案。

3.事件自动化
通过事件自动化,您可以将所有事件从各种监视工具发送到单个端点,并通过编程方式管理事件行为。

a)路由
根据事件有效载荷确定哪些团队/服务警报已发送到。
b)重复数据删除
使用轻松自动自动删除冗余警报和事件的系统对于减轻不必要的响应噪声至关重要。
c)抑制
不可行的事件(例如信息消息)不应通知响应者,但仍应保留法医分析。
d)富集
注释,运行书,链接和/或其他详细信息应自动附加到事件中,以帮助响应者更快地解决。
e)相关
应利用自适应机器学习和基于规则的方法,以使相关事件和警报到具有所有正确上下文的可行事件。这对于减少响应者噪声以及简化分辨率过程也至关重要。

4.响应
一旦事件的格式使人们尽可能容易地在正确的环境中采取行动,应参与响应者。理想情况下,组织可以定义他们希望问题如何根据严重性动态通知和/或升级。更好的是,他们应该授权预先定义所需的响应动作(例如,跨职能响应者动员,对高管和其他利益相关者的通知等)对于和平时期的不同类型的事件场景。这样,他们可以在战时轻松自动执行它们。

5.解决方案
事件或事件已解决和关闭后,IT和随后的所有操作都应记录在中央事件管理或系统管理解决方案中,以确保准确的报告。应跟踪诸如降低噪音,减少事件和通知以及平均识别和解决问题的降低等指标,以了解您的ITIL事件管理过程如何改善。

为什么ITIL活动管理很重要

不再有可能在阳光下的每种可能的事件场景中手动眼球和解析所有系统或程序规则发生的事件。同时,围绕对事件采取正确行动(以及实时的!)的赌注比以往任何时候都高。这就是为什么以事件管理形式进行自动化对于大规模管理事件行为绝对至关重要的原因。

ITIL事件管理可帮助组织定义检测和催化对任何影响服务管理和绩效的事件的正确响应的外观。例如,在PagerDuty中,可以使用严重性字段(直接从触发监视工具提供或使用PagerDuty事件规则定义)生成警报。根据下面定义的有效载荷,从警报生成的事件将动态选择正确的通知行为。

警报严重性 描述 默认事件紧迫
批判的 系统的主要应用程序失败。 高的
错误 任何对操作致命的错误,而不是服务或应用程序。 高的
警告 可能表明如果不采取行动,将发生错误。 低的
信息 不需要行动的正常操作消息。 低(如果附加到事件或被压制)

最佳实践ITIL活动管理

为了随着复杂性的迅速增长而维持生计,团队必须自动化重复的手动任务,以将时间集中在更高的活动上。规则应易于创建,处理许多不同的事件类型,并允许可自定义的丰富,重复数据删除,警报抑制,并通知管理复杂的企业需求。

在实施自动化时,请重点关注配置所居住的位置。当您拥有一个集中的运营团队,试图为每个可能的事件场景(或至少他们能想到的情况)编程特定规则时,它会创建一个带有大量筒仓的重量级系统。在这种情况下,配置系统的操作分析师不知道在响应者或应用程序级别上实际发生了什么,而响应者在通知问题时缺少关键信息。您需要一种解决方案,以减少配置开销,并使中央和分布式团队能够轻松从同一系统工作而无需互相绊倒,此外还出现了完整的上下文。

如何充分利用ITIL活动管理

传统的事件管理方法有效地削减了噪音,但通常成本高昂,设置和维护时间耗时,不要将相关的人类环境和过去的补救信息与系统数据整合在一起,也不能很好地与不断变化的基础架构相处。

Pagerduty事件智能是事件管理和AIOPS的唯一解决方案,它将您的系统数据与人体响应模式集成在一起,从而提供了从信号到动作的最快路径。立即尝试一下14天免费试用

我们在此免费电子书中详细介绍了这种方法的细节和客户利益:任何团队的下一代活动管理和AIOPS。

我们希望这些资源可以帮助您实施减少噪音并扩展团队的实践。

Baidu