服务感知事件管理-20200210

AIOps 服务感知事件管理

为什么今天的方法会失败——又是如何失败的呢

ServiceAI 如何实现的

为什么今天的方法失败了以及 ServiceAI 如何实现的？

IT 提供关键业务服务，企业需要这些服务来吸引客户、使流程自动化、创建创新技术和激发业务洞察力。这些业务服务—电子商务门户、供应链系统、协作平台等——必须具有高可用性和响应能力。服务中断会立即产生巨大的业务影响。根据 Gartner 的数据，网络宕机的平均成本约为每分钟 4 万元，相当于每小时 240 多万元。服务中断的长期影响是:糟糕的业务服务健康状况会破坏组织兑现承诺的能力，并赶走客户。

不幸的是，IT 仍然受到服务可用性和性能问题的困扰。IT 运维继续淹没在大量的基础设施事件中，而没有真正理解这些事件如何影响业务服务。当服务器或网络连接失败时，它不知道其业务影响。故障可能是相对不重要的，也可能是重大的事情，比如信用卡交易业务无法处理。同样的，当一个客户抱怨糟糕的响应时间，很难找到根本原因——它不知道哪些基础设施组件支持了特定的服务或这些组件如何连接。

这张图显示了所有使用标准事件管理产品的运维中心的当前状态。由某个问题触发的事件可以来自它们使用的任何监控源，但大多数都没有和业务服务关联起来。这使得运维中心人员很难识别服务可用性问题，了解其潜在影响，并计划最佳的解决方案。因此，运维中心将大部分 MTTR(平均修复时间)花在理解问题上，而不是解决问题。

多个无关联的监控工具使这种情况更加糟糕。每个工具都生成自己的竖井式数据流，多个工具常常报告相同的问题。运维中心的工作人员必须手动关联这些信息，通过关联和消除冗余数据来了解实际发生的情况。即使工作人员能够做到这一点，仍然会有大量的干扰------单个问题可以创建数千个事件，而许多事件是无关的，因为它们不是故障根源，或者根本没有业务影响。对这些噪声事件进行排序非常耗时，而且经常出现错误，这增加了修复服务中断所需的时间。按照这个过程，员工可能会错过一些问题，导致进一步的停机和糟糕的性能。

淹没在事件的海洋中

IT 业务还需要阻止大量基础设施事件的发生。简单地在服务映射上显示事件并不会减少大量事件。监控数据需要跨多个源进行规范化和去重复，然后进行过滤和关联，以消除噪音并创建有意义的告警。然后，需要对这些告警进行分析，以确定其真正的服务影响—不仅影响哪些业务服务，而且影响的严重程度。例如，当集群中的一个节点中断时，这比没有部署负载均衡的节点中断对服务的影响要小得多。

这张图显示了 ServiceAI AIOps 如何通过减少运维中心工作人员必须处理的告警数量来大幅降低 MTTR，同时为他们提供关于每个告警关联的全面信息。根据模型和基于时间、文本和历史事件的事件分析算法，将传入的事件自动筛选、关联并告警进行分组，可以定位 80%业务中断的根源故障。

虽然现有的事件管理系统确实减少了事件量，但它们依赖规则来抑制和分组事件。随着 IT 环境的发展和扩展，必须手动配置这些规则并保持最新。每次部署新的应用程序或组件时，系统都需要更多的规则，并且必须更新现有的规则。即使是一个简单的软件版本升级，也可能需要修改几个事件规则。复杂的 IT 环境需要几十个数以千计的事件规则或更多。

为了跟上 IT 环境的变化，事件规则需要随之动态的更新。事件管理系统必须具备人工智能运维(AIOps)和机器学习。他们必须识别传入事件的模式，然后使用这些模式对事件进行分组，减少事件源。这种类型的机器学习可以显著降低人工关联事件的工作，因为它能自动适应不断变化的环境。然而，传统事件管理系统不提供这种级别的人工智能，所以组织仍然难以应付大量的相关的噪声事件。

与现有的监控和事件管理工具集成

ServiceAI AIOps 使用可配置连接器技术或 SNMP Trap，不仅可以集成几乎所有的监控和事件管理工具，也很容易地扩展到不太常见的监控和事件管理系统。

事件转换、重复数据删除和过滤

ServiceAI AIOps 是从头构建大量的原始告警提炼为少量的有意义的和可操作的告警。首先规划化事件，创建跨多个监控和事件源表述一致的事件告警，然后应用重复数据删除技术，合理化从多个监控源接收的事件。接下来，它关联这些事件告警，使用可配置的预警规则，将大量相关事件变成一个告警。还可以过滤掉特定事件，对传入的监控数据应用阈值，并抑制不断增加的事件，并进行清除。

自动化事件分组

为了进一步降低事件噪声，AIOps 使用 AI 技术自动对传入事件进行分组，在传入的事件流中寻找重复的空间和时间模式。一旦确定了一个模式，就会使用将相关事件分组到单个根事件下。

这极大地减少了事件量，使 IT 人员能够专注于诊断和解决业务服务问题，而不必手动地对大量事件进行排序和关联。随着解决方案识别新的模式，它为用户提供了模式标记的能力。这创建了一个机器学习反馈循环，因此 AIOps 只以用户认为有用的方式对事件进行分组。

总结

为了提供客户所需的服务可用性和性能，需要创建完全支持服务的事件管理环境。传统事件管理工具不能胜任任务—它还只是面向基础设施的视图，这使得识别和解决业务服务健康问题变得非常困难。

ServiceAI AIOps 交付了这个服务感知环境，极大地简化了诊断和解决业务服务问题的任务。与您现有的监视和事件管理工具集成，将大量基础设施事件转换为少量有意义的服务告警。

返回最新资讯