最新资讯

作者:ServiceAI发布日期:11 February, 2020

服务感知事件管理-20200210

AIOps 服务感知事件管理

为什么今天的方法会失败——又是如何失败的呢

ServiceAI 如何实现的

为什么今天的方法失败了以及 ServiceAI 如何实现的?

IT 提供关键业务服务,企业需要这些服务来吸引客户、使流程自动化、创建创新技术和激发业务洞察力。这些业务服务—电子商务门户、供应链系统、协作平台等——必须具有高可用性和响应能力。服务中断会立即产生巨大的业务影响。根据 Gartner 的数据,网络宕机的平均成本约为每分钟 4 万元,相当于每小时 240 多万元。服务中断的长期影响是:糟糕的业务服务健康状况会破坏组织兑现承诺的能力,并赶走客户。

不幸的是,IT 仍然受到服务可用性和性能问题的困扰。IT 运维继续淹没在大量的基础设施事件中,而没有真正理解这些事件如何影响业务服务。当服务器或网络连接失败时,它不知道其业务影响。故障可能是相对不重要的,也可能是重大的事情,比如信用卡交易业务无法处理。同样的,当一个客户抱怨糟糕的响应时间,很难找到根本原因——它不知道哪些基础设施组件支持了特定的服务或这些组件如何连接。

图片

这张图显示了所有使用标准事件管理产品的运维中心的当前状态。由某个问题触发的事件可以来自它们使用的任何监控源,但大多数都没有和业务服务关联起来。这使得运维中心人员很难识别服务可用性问题,了解其潜在影响,并计划最佳的解决方案。因此,运维中心将大部分 MTTR(平均修复时间)花在理解问题上,而不是解决问题。

多个无关联的监控工具使这种情况更加糟糕。每个工具都生成自己的竖井式数据流,多个工具常常报告相同的问题。运维中心的工作人员必须手动关联这些信息,通过关联和消除冗余数据来了解实际发生的情况。即使工作人员能够做到这一点,仍然会有大量的干扰------单个问题可以创建数千个事件,而许多事件是无关的,因为它们不是故障根源,或者根本没有业务影响。对这些噪声事件进行排序非常耗时,而且经常出现错误,这增加了修复服务中断所需的时间。按照这个过程,员工可能会错过一些问题,导致进一步的停机和糟糕的性能。

淹没在事件的海洋中

IT 业务还需要阻止大量基础设施事件的发生。简单地在服务映射上显示事件并不会减少大量事件。监控数据需要跨多个源进行规范化和去重复,然后进行过滤和关联,以消除噪音并创建有意义的告警。然后,需要对这些告警进行分析,以确定其真正的服务影响—不仅影响哪些业务服务,而且影响的严重程度。例如,当集群中的一个节点中断时,这比没有部署负载均衡的节点中断对服务的影响要小得多。

图片

这张图显示了 ServiceAI AIOps 如何通过减少运维中心工作人员必须处理的告警数量来大幅降低 MTTR,同时为他们提供关于每个告警关联的全面信息。根据模型和基于时间、文本和历史事件的事件分析算法,将传入的事件自动筛选、关联并告警进行分组,可以定位 80%业务中断的根源故障。

虽然现有的事件管理系统确实减少了事件量,但它们依赖规则来抑制和分组事件。随着 IT 环境的发展和扩展,必须手动配置这些规则并保持最新。每次部署新的应用程序或组件时,系统都需要更多的规则,并且必须更新现有的规则。即使是一个简单的软件版本升级,也可能需要修改几个事件规则。复杂的 IT 环境需要几十个数以千计的事件规则或更多。

为了跟上 IT 环境的变化,事件规则需要随之动态的更新。事件管理系统必须具备人工智能运维(AIOps)和机器学习。他们必须识别传入事件的模式,然后使用这些模式对事件进行分组,减少事件源。这种类型的机器学习可以显著降低人工关联事件的工作,因为它能自动适应不断变化的环境。然而,传统事件管理系统不提供这种级别的人工智能,所以组织仍然难以应付大量的相关的噪声事件。

与现有的监控和事件管理工具集成

ServiceAI AIOps 使用可配置连接器技术或 SNMP Trap,不仅可以集成几乎所有的监控和事件管理工具,也很容易地扩展到不太常见的监控和事件管理系统。

事件转换、重复数据删除和过滤

ServiceAI AIOps 是从头构建大量的原始告警提炼为少量的有意义的和可操作的告警。首先规划化事件,创建跨多个监控和事件源表述一致的事件告警,然后应用重复数据删除技术,合理化从多个监控源接收的事件。接下来,它关联这些事件告警, 使用可配置的预警规则,将大量相关事件变成一个告警。还可以过滤掉特定事件, 对传入的监控数据应用阈值,并抑制不断增加的事件,并进行清除。

自动化事件分组

为了进一步降低事件噪声,AIOps 使用 AI 技术自动对传入事件进行分组,在传入的事件流中寻找重复的空间和时间模式。一旦确定了一个模式,就会使用将相关事件分组到单个根事件下。

这极大地减少了事件量,使 IT 人员能够专注于诊断和解决业务服务问题,而不必手动地对大量事件进行排序和关联。随着解决方案识别新的模式,它为用户提供了模式标记的能力。这创建了一个机器学习反馈循环,因此 AIOps 只以用户认为有用的方式对事件进行分组。

总结

为了提供客户所需的服务可用性和性能,需要创建完全支持服务的事件管理环境。传统事件管理工具不能胜任任务—它还只是面向基础设施的视图,这使得识别和解决业务服务健康问题变得非常困难。

ServiceAI AIOps 交付了这个服务感知环境,极大地简化了诊断和解决业务服务问题的任务。与您现有的监视和事件管理工具集成,将大量基础设施事件转换为少量有意义的服务告警。