Claranet成立于1996年,是一家IT服务管理公司,为世界各地的组织提供网络,托管和托管应用程序服务。Claranet凭借其作为公司任务的核心经验,通过提供工具,自动化和IT服务来帮助弥合客户的技术差距,以便他们可以专注于创新,同时继续进行内部开发和维护。
Claranet的主要工程师Andrew Rundle是负责Claranet的基础架构和运营服务的小组工程团队的一部分,特别是围绕其自己的数据中心和公共云的托管。他的团队的责任范围从部署服务器和容器到管理客户的应用程序经验和DevOps流程。Rundle解释说:“我们团队的目标是降低客户的成本,并帮助他们建立更有效的运营,同时还引入新技术,产品和服务。”
克拉纳特(Claranet)经历了来自几次商业收购的快速增长阶段,几年来几乎将其员工人数增加了两倍。这种增长导致增加了几支新的IT团队为Claranet,以及大量的新客户,应用程序和支持工具。
这种内部和外部增长,再加上新的操作模型与现有的IT流程,构成了一些新的挑战,包括:
由于新客户,产品和服务的增长,Claranet的小组工程团队需要一个端到端的事件管理平台,以正确地承认,响应和解决事件,然后他们对内部和外部客户产生负面影响。“我们的团队在下班时间每晚接到四到五次的电话。这导致了我们的团队的反应延迟,疲劳和沮丧。我们的一些工程师离开了,因为现有模型是不可持续的,” Rundle分享道。
在Pagerduty之前,Rundle的团队正在使用本地网络运营中心(NOC)资源来进行现场传入警报,这是一个手动过程,在事件达到指定的响应者之前依靠多次人类互动。其中一些团队和地区具有集中的NOC,而其他地区则采用DevOps和SRE方法进行工程运营,从而导致了公司内部的Hybridops模型。结果,团队发现很难分解孤岛,并确保在监测堆栈中采用一定程度的标准化和技术。
呼叫的涌入使资源筋疲力尽,当地的NOC并未适当地向小组工程团队进来的警报,因为他们没有完全意识到与警报相关的事件的严重性。“ NOC团队将收到下班的警报,直到第二天早上才通知我们的团队,当我们服务中发生更严重的事件发生时,这变得有问题。”对手动过程和人类互动的依赖在响应过程中产生了瓶颈,并对MTTR产生了负面影响。
和Pagerduty Live Call路由,Rundle的团队现在可以创建一个自助服务模型以确保发生事件的能力在正确的时间自动发送到正确的资源,以快速有效地响应。Claranet的Pagerduty Live呼叫路由以两种不同的方式使用:
“从本质上讲,我们已经到了现在,由于实时呼叫路由,我们不必再依靠人类的互动了。随着时间的流逝,整个组织的其他团队由于其自助服务领域而继续采用它。” Rundle解释说。
Claranet已在组织内部的几个全球分布式团队中部署了Pagerduty,包括网络,安全和工程团队。Rundle的团队使用Pagerduty的与Slack集成在事件发生时对事件的响应和管理进行迅速而无缝的沟通,同时还确保了事件当前对利益相关者(例如执行团队)的现状。他分享道:“在Pagerduty之前,我们必须单独与人们联系以询问发生了什么,但是随着松弛整合,我们看到每个人的警报,我们实际上可以分析整个平台上的关联。”
此外,Pagerduty还帮助将事件管理流程的数据管理和报告给关键的利益相关者和领导团队。Rundle解释说:“从数据角度来看,Pagerduty可以帮助我们,因为您实际上可以看到数据,将其带到管理层并说'看,这值得投入时间和金钱。”
借助Pagerduty,Claranet的区域团队具有最适合特定团队现有流程的方式使用该平台的自主权,每个区域团队都可以以自己的原始方式利用Pagerduty。“ Pagerduty是一个简单,光滑的应用程序,最终使我们的团队可以减少他们的工作量,并通过从中获得的数据真正看到影响,” Rundle共享。
克拉纳特(Claranet)在Pagerduty中看到了其他一些好处,包括:
“在中央聚合层中拥有Pagerduty,可以通过不必去构建监视系统集成和Cookie来节省我们的时间。”
-安德鲁·伦德尔(Andrew Rundle),首席工程师,Claranet
Claranet计划继续在整个全球组织的不同团队中扩展Pagerduty的使用,包括整个小组的基础设施,公共云和安全团队。“我们希望变得更加积极主动,并利用更多的自动化来预测真正发生的事情并减少尽可能多的噪音,” Rundle分享道。他的团队也在考虑实施Pagerduty事件智能为了进一步了解事件的构成以及如何改善整个组织的响应过程。
要了解有关Pagerduty如何帮助拥有数字运营管理的全球公司的更多信息,请尝试今天的Pagerduty。