• 尺寸:100名员工
  • 行业:信息技术与服务
  • 地点:纽约,纽约
  • 客户以来:2016年
顾客→四重奏

四重奏开发并提供基于云的平台,以促进医疗提供者和行为健康提供者在患者护理方面的沟通和协作。它的平台依靠高级分析,经过验证的治疗计划和现代技术来为提供者,患者和保险公司提供医疗保健工作。重点关注24/7的医疗保健提供商并确保最大的数据安全和隐私,因此重要的是要密切关注其内部系统,并确保事情有效,安全地运行。工程主管Mustafa Shabib负责在四重奏中构建技术服务和系统。随着公司增长的增加,包括Shabib团队的扩大,建立事件管理解决方案成为确保平台满足客户需求和期望的头等大事。

克服更快解决事件的挑战

一开始,当四重奏组的七个工程师组成的较小团队时,他们开始使用Sumo Logic和Slack来提供实时IT INSIFTS。工程师将其事件警报通知通知Slack内的特定频道,使他们能够在手机和台式机上接收警报。没有电话旋转时间表,因此,当一个问题引起了所有人同时蜂拥而至的问题时。最终,经过讨论后,一个人将采取行动 - 这种蜂拥而至的过程意味着服务中断会导致平均时间到互动的增加(MTTA)和平均时间到分解(MTTR)(MTTR)。Sumo逻辑和松弛通知并不能在团队内部带来紧迫感。Shabib说:“我们并没有尽快解决解决事件的尽职调查。随着公司的成长,缺乏事件管理解决方案正在造成损失,以提供始终在线的客户和患者所期望的。

实施减少MTTA和MTTR的解决方案

随着四重奏的工程团队的成长,需要部署解决方案来协助维护其关键服务和系统成为紧迫的事情。Pagerduty经过精心选择,以帮助该公司快速克服解决事件的挑战,同时还支持他们围绕减少MTTA,MTTR以及发生的总数发生的目标。四重奏研究了其他一些解决方案,但发现Pagerduty更加成熟,并且在该行业中享有较高的声誉。

四重奏的整个基础架构都内置在AWS中,它们利用CloudWatch来进行系统级别的资源警报和监视。这些警报是通过Pagerduty,Web主机以及其第三方基于云的日志管理和分析服务Sumo Logic触发的。他们的代理在所有主机上运行,​​这些主机将日志推向Sumo逻辑并每分钟创建计划的查询,这将触发Pagerduty以获取事件警报。

Shabib指出,在解决问题之前,制定解决方案可以发出警报和提醒,这有助于在团队内部建立问责制。最终,这有助于实施高质量日志的产生,同时允许个人在发生时更快地调试这些问题。该团队还制定了一项升级政策,当主要联系人无法确认事件时,该升级政策将逐步发展,从而允许次要的电话联系人采取行动。

“我认为Pagerduty有助于将所有权掌握在工程师的手中。使它们更接近事件,因此,当发生这种情况时,实际构建该软件的合适人员会被通知并可以解决并改善问题。” Shabib说。这比“蜂群技术”要好得多,后者可能将事件置于某人的手中,而没有适当的上下文或知识来解决此问题,更不用说当问题可能被处理时涉及整个团队的效率低下过程一个人。

该公司的目标是改善其运营指标,并减少平均时间到批准(MTTA)和平均时间到解决(MTTR)。Shabib说:“这些指标在Pagerduty的帮助下得到了很大的改善,导致事件下降了25%。”使用Pagerduty的分析功能收集指标,使团队可以跟进过去的事件并衡量事件管理过程周围的运营效率。

“ Pagerduty具有弹性,并保证您将知道您的应用程序发生有问题的事情。没有很多服务可以提供这些保证。”

- 穆斯塔法·沙比布(Mustafa Shabib),工程主管,四重奏

提供弹性和保证交付

Pagerduty使四重奏能够快速有效地解决事件,并将事件数量减少25%,同时减少MTTA和MTTR。“如果我们没有Pagerduty,我们将以不仅仅是客户的方式使人们失败。如果我们允许这些事件发生而不解决这些事件或有紧迫性解决这些事件,这将对人们的生活产生负面影响。这不仅是一家失败的业务,而且对患者来说是一种道德上的失败,” Shabib说。

Baidu