跳转至

智能降噪和压缩


为何要压缩告警

运维监控工具/平台,一般是通过配置固定阈值,达到阈值后自动触发/生成告警。如网络中断、闪断;系统升级更新;设备多监控内容多等情况下,更会产生海量告警。以下为告警管理常见问题:

  • 故障期间,告警风暴,手机/邮箱会被海量告警淹没;

  • 运维人员很难从海量告警从筛选出重要告警,容易忽略重要告警;

  • 固定阈值控制,频繁误报、漏报告警;


CA告警压缩机制

睿象云智能告警管理平台CA,适应不同行业、不同规模、不同运维水平公司的各种告警需求,平台支持多维度告警压缩合并与降噪,帮助您在不遗漏重要告警前提下,快速减少告警。

CA实现告警降噪根据降噪程度不同,分为三种方式:

  1. 自动去重压缩;

  2. 规则压缩;

  3. 智能算法降噪。


自动去重

全量告警推送到CA平台后,CA平台会自动基于时间序列,将相同的事件/告警压缩。不同监控工具去重压缩机制有细微差异:根据 eventId(事件ID)和告警对象,去除重复告警。

  • 事件ID不为空:系统中有未关闭的告警,若事件ID相同,则自动合并告警;

  • 事件ID为空:系统中有未关闭的告警,若告警对象响应,则自动合并告警。

提示

• 是否合并告告警,以系统中是否有未关闭的告警,如告警一直不关闭,则后推送到CA平台具有相同事件ID的告警会一直被合并压缩。

• 被合并的告警不会再次通知。如想收到通知,需先关闭历史告警。


智能降噪

去重后的告警,会按照压缩规则,将相似、同源(同一设备不同类型的信息)告警再次进行压缩。一共分为两种压缩机制,分别是:

  1. 算法智能降噪

  2. 自定义压缩规则降噪

智能降噪设置方法

  1. 进入路径:配置 -> 压缩规则,进入压缩规则管理界面

  2. 设置应用名称,选择应用-勾选“时间窗口智能降噪”或者是"实时智能降噪"

    实时智能降噪的压缩可选性

    实时智能降噪中目前有可勾选的压缩指标,其中包括"主机""级别",勾选后会优先这两个指标进行压缩

    实时智能降噪中有两种可选的压缩内容方式,分别是"模板匹配"和"完全匹配","模板匹配"的压缩方式是通过算法提取出的告警模板所进行的对比,"完全匹配"的压缩方式是通过告警内容完全相同时产生的压缩

  3. 选择降噪参数—选择压缩指定时间内的告警

  4. 设置分派策略

  5. (可选)设置风暴预警

    时间窗口智能降噪与实时智能降噪的区别

    时间窗口智能降噪是先压缩指定时间内的告警,在进行分派通知。 实时智能降噪是第一时间就通知,后产生相同告警会被压缩在主告警中。

自定义压缩规则设置方法

  1. 进入路径:配置 -> 压缩规则,进入压缩规则管理界面

  2. 设置应用名称,选择应用

  3. 设置压缩条件:

    • 按照 主机服务告警内容告警对象 进行关联;
    • 支持 等于不等于包含 条件,支持正则匹配;
    • 支持添加 条件。

  4. 设置分派策略

  5. (可选)设置风暴预警

算法降噪

CA历经4年的历练,积累各行各业2亿条原始告警,积累3GB告警专业特色词库,230万条告警人工标注,20种人工智能算法,2年模型在线训练和迭代,为算法降噪打下坚实基础。算法降噪分为2个步骤:

  1. 仿阅读智能算法:

    1. 告警全文本预处理:基于CA打造的告警专业特色词/停用词库,数据字典,人工标注信息等,对告警全文本分词处理等;
    2. 基于CA内置的分类等算法,对告警进行自动标注分类信息。
  2. 高聚合智能算法:

    1. 告警全文本预处理:与算法智能分类预处理一致,无需重复处理;
    2. 基于CA内置聚类等算法,提取告警关键特征信息,对告警进行算法聚类降噪,将关键特征信息与聚类结果关联。

CA算法降噪最高降噪比99.9%,下附聚类效果截图:

进入路径:告警 -> 智能降噪按钮,即可进入智能降噪界面。未来将支持更多降噪算法,根据您的告警规模、告警特征自行选择降噪算法。

Top50主机聚合分类

新增告警Top50主机聚合分类,将用户团队中告警根据主机类型进行聚类出前50种,帮助用户分析告警关键信息。

进入路径:告警 ->智能降噪 ->Top50主机聚合分类

告警降噪/压缩持续优化中,欢迎联系我们了解更多

* 告警编号: 呃呃呃 * 姐夫防腐: dddd * 等待快递打开