AIOps (Artificial Intelligence for IT Operations),智能化运维,将人工智能应用于运维领域,基于已有的运维大数据(日志、指标、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。
AIOps在自动化运维的基础上,增加了一个基于机器学习的大脑,指挥监测系统采集大脑决策所需的数据,做出分析、决策,并指挥自动化脚本去执行大脑的决策,从而达到运维系统的整体目标(噪声消除、根源分智能预警等)。
动态阈值连续设置报警标准,AIOps并没有像cpu>90%那样折裹,而是着眼于周期性并使用数十种衡量指标来计算每一时刻的最佳阈值
对导致事故的所有受影响资产和情况的上下文理解,使系统能够正确识别和组建响应团队,并清除地解释情况
机器学习通过了解趋势驱动的模式来执行多变量异常检测,足够精准,知道什么时候不期望发生什么
一种因果模型的有监督学习,通过该模型,使用时间戳和拓补信息将时间关联链接起来,从而实现精准的根本原因分析
不断学习正常和异常的行为,精确地预测性能趋势和故障点,可以及时预测故障,从而避免这些问题的发生
因为系统精确的降噪和根因分析,使得系统可以准确的知道发生了什么问题,从而通过自动化的手段进行自我修复,实现系统的自愈
用户管理
认证授权
管理配置
统计管理
日志管理
存储管理
仪表板
模式标记
过滤反馈
告警数据
日志采集
心跳监听
外部系统接口
告警系统
IT SM系统
邮件系统
APM工具连接器
数据流管理
日志(Log)数据提取
指标(Metrics)数据提取
CMDB丰富
行为发现 (Behavior Discovery)
噪声抑制 (Noise Suppression)
问题发现与预测 (Issue Discovery and Prediction)
异常检测 (Anomaly Detection)
根因确定 (Root Cause Determination)
仪表板 (Dashboard)
自动工单创建
A/B模型测试和生产管理
历史数据管理
自主修复/操作 (Autonomous Remediation / Operations)
公民数据科学家(Citizen Data Scientists)
ML有监督训练(Supervised Training)
人工智能,机器学习,事件流处理和自动化决策提升IT运维效率,减少90%+的无效告警(噪声),随着系统自我学习效率将会更高。
AIOps软件可以监控多个系统,服务和资源之间的因果关系,对不同的数据源进行聚类和关联。这些分析和机器学习功能使软件能够执行功能强大的根本原因分析,从而加快对困难和异常问题的故障排除和修复的速度。
实时的人工智能分析设备和应用程序告警数据流,学习、抑制、识别根源告警和智能修复,提升所运维系统的可用性带来积极的最终用户体验。
AIOps使用机器学习来检测系统行为的变化,不断适应环境,且学习行为不需要手动设置阈值和维护规则,大大降低人力维护成本。
日常任务的自动化,使IT部门能够专注于严重的复杂问题,集中精力改进基础设施和流程,而不是处理重复和耗时的任务。
AIOps可以改善IT组之间以及IT与其他业务部门之间的协作和工作流(work flow)活动。 借助量身定制的报告和仪表板,团队可以快速了解他们的任务和要求,并与他人进行交互,而无需了解其他团队需要知道的一切。