跳转至

根因定位


为何引入根因定位

运维监控工具/平台,在网络中断、系统上线升级、设备多监控项多等情况下,就可能会引发大批量的告警,这就会导致告警发生后,运维人员排查根因困难,拉长了整体的告警处理进度,从而影响整体的业务。睿象云智能告警平台 Cloud Alert 能够通过根因定位功能,基于时间片段训练出的模型,快速的预测到团队当天告警的根因位置。

当前的根因定位功能,是通过用户根据自身团队的告警数据,通过我们的算法,训练出来的告警模型,之后用户可以依据告警模型,选取根因预测的时间节点,从而预测到告警的根因。

多次的模型训练,会加强根因预测的准确性


如何实现根因定位

CA平台提供两种方式,一种是基于时间片段的根因预测,利用算法基于历史数据的时间序列生成根因拓扑模型,然后基于当天的某个时间段基于根因拓扑模型进行根因预测;第二种是利用算法基于历史数据进行事件的聚合,然后提供手动绘制根因拓扑模功能,然后基于当天的某个时间段基于根因拓扑模型进行根因预测,从而提升根因预测的准确度

基于时间片段的根因定位

根据用户选取的告警时间点,系统会抓取其中的数据,通过算法,将数据训练出不同的告警关系拓扑图

  • 首先进入 CA,点击根因定位

  • 右上角选取时间 - 点击训练模型

训练后下方就会生成团队告警的模型,多次训练模型会加强根因定位的准确性

  • 在通过左上角选取根因预测时间节点,点击确定,就可以预测到根因位置

基于自定义根因场景的根因定位

通过对告警的标记,以及对告警层级的分类,通过系统的抓取,训练出不同的告警关系拓扑图

事件管理

  • 修改分类 : 根因标记的位置,平台会将告警通过算法智能分类,如分类不满足需求,可以自行修改分类

  • 自定义事件描述 : 用户可以对告警集根据自身的需求进行描述,在形成根因拓扑图的时候会展示用户的自定义描述

根因场景

手动绘制根因拓扑模功能,然后基于当天的某个时间段基于根因拓扑模型进行根因预测,从而提升根因预测的准确度。

根因定位功能,还在持续优化中,如果您有疑问或者建议,欢迎联系我们