数字操作的现状

欢迎阅读第一份《数字运营状况报告》,该报告汇总了实时工作量、工作量随时间的增长及其给技术团队带来的负担。

通过分享我们在PagerDuty平台上所看到的聚合视图,我们希望帮助数字和商业领袖了解良好运营实践对业务影响、运营健康和人为因素的影响。

在这个页面上,你可以找到我们在报告中强调的一些关键平台见解。我们将继续定期更新这个页面上的指标,并期待报告我们所看到的趋势。

平均每日指标(截至2021年8月)

39米

事件

1.3米

警报

618 k

中断

58 k

关键事件

2019-2020年,关键事件同比增长19%

关键事件定义为来自高度紧急服务的事件,不是在5分钟内自动解决,而是在4小时内得到确认,并在24小时内解决。

图1:事件量

使用PagerDuty整体降噪98%

使用各种降噪技术(包括机器学习),事件被压缩到大约100万个警报,这相当于每天实际事件的数量。

图二:减少噪音

平均事故花费的工程时间是126美元

每个事件平均需要1.2名响应人员,需要126分钟才能解决,每小时/响应人员的成本为50美元,每家公司每起事件的成本为126美元。成本会因地区和地理而异,但这只是冰山一角。这个数字没有考虑到对品牌声誉、收入、员工生产力和士气的下游影响。

图3:成本

2020年的工作时间明显低于2019年

人类最终处于事件响应的中心,因此保持对组织中可能发生的过度工作的认识对于业务和技术团队都是至关重要的。

每天工作 + 2小时 2019 2020 倦怠和生产

与2019年相比,2020年美国的中断情况

多出9%

非高峰时间中断

多出7%

周末假日/小时中断

多出5%

营业时间中断

减少了3%

睡眠小时中断

不管理倦怠会导致员工流失

我们的数据科学团队研究了用户离开平台和他们参与非工作时间事件解决的频率之间的关系。我们发现了一个统计学上显著的相关性:用户在业余时间越频繁地参与解决问题,他们就越有可能退出。

倦怠和生产

在美国,过度工作和疲惫不堪的急救人员正承受着非工作时间中断的负担

图6:倦怠应答者的非工作时间中断与中位数 图7:过度工作的应答者的非工作时间中断与中位数

随着时间的推移,团队对事件的反应越来越好

看看已经使用PagerDuty超过5年的账户,很明显,他们在事件响应方面越来越好,因为他们继续使用这个平台,而MTTA和MTTR都随着时间的推移呈下降趋势。

图8:MTTA账户年龄 图9:按账户年龄划分的MTTR
Baidu