智能降噪和压缩¶
为何要压缩告警¶
运维监控工具/平台,一般是通过配置固定阈值,达到阈值后自动触发/生成告警。如网络中断、闪断;系统升级更新;设备多监控内容多等情况下,更会产生海量告警。以下为告警管理常见问题:
-
故障期间,告警风暴,手机/邮箱会被海量告警淹没;
-
运维人员很难从海量告警从筛选出重要告警,容易忽略重要告警;
-
固定阈值控制,频繁误报、漏报告警;
CA告警压缩机制¶
睿象云智能告警管理平台CA,适应不同行业、不同规模、不同运维水平公司的各种告警需求,平台支持多维度告警压缩合并与降噪,帮助您在不遗漏重要告警前提下,快速减少告警。
CA实现告警降噪根据降噪程度不同,分为三种方式:
-
自动去重压缩;
-
规则压缩;
-
智能算法降噪。
自动去重¶
全量告警推送到CA平台后,CA平台会自动基于时间序列,将相同的事件/告警压缩。不同监控工具去重压缩机制有细微差异:根据 eventId(事件ID)和告警对象,去除重复告警。
-
事件ID不为空:系统中有未关闭的告警,若事件ID相同,则自动合并告警;
-
事件ID为空:系统中有未关闭的告警,若告警对象响应,则自动合并告警。
提示
• 是否合并告告警,以系统中是否有未关闭的告警,如告警一直不关闭,则后推送到CA平台具有相同事件ID的告警会一直被合并压缩。
• 被合并的告警不会再次通知。如想收到通知,需先关闭历史告警。
智能降噪¶
去重后的告警,会按照压缩规则,将相似、同源(同一设备不同类型的信息)告警再次进行压缩。一共分为两种压缩机制,分别是:
-
算法智能降噪
-
自定义压缩规则降噪
智能降噪设置方法¶
-
进入路径:
配置
->压缩规则
,进入压缩规则管理界面 -
设置应用名称,选择应用-勾选“时间窗口智能降噪”或者是"实时智能降噪"
实时智能降噪的压缩可选性
实时智能降噪中目前有可勾选的压缩指标,其中包括"主机""级别",勾选后会优先这两个指标进行压缩
实时智能降噪中有两种可选的压缩内容方式,分别是"模板匹配"和"完全匹配","模板匹配"的压缩方式是通过算法提取出的告警模板所进行的对比,"完全匹配"的压缩方式是通过告警内容完全相同时产生的压缩
-
选择降噪参数—选择压缩指定时间内的告警
-
设置分派策略
-
(可选)设置风暴预警
时间窗口智能降噪与实时智能降噪的区别
时间窗口智能降噪是先压缩指定时间内的告警,在进行分派通知。 实时智能降噪是第一时间就通知,后产生相同告警会被压缩在主告警中。
自定义压缩规则设置方法¶
-
进入路径:
配置
->压缩规则
,进入压缩规则管理界面 -
设置应用名称,选择应用
-
设置压缩条件:
- 按照 主机 、服务 、告警内容 、告警对象 进行关联;
- 支持 等于 、不等于 、包含 条件,支持正则匹配;
- 支持添加 且 、或 条件。
-
设置分派策略
-
(可选)设置风暴预警
算法降噪¶
CA历经4年的历练,积累各行各业2亿条原始告警,积累3GB告警专业特色词库,230万条告警人工标注,20种人工智能算法,2年模型在线训练和迭代,为算法降噪打下坚实基础。算法降噪分为2个步骤:
-
仿阅读智能算法:
- 告警全文本预处理:基于CA打造的告警专业特色词/停用词库,数据字典,人工标注信息等,对告警全文本分词处理等;
- 基于CA内置的分类等算法,对告警进行自动标注分类信息。
-
高聚合智能算法:
- 告警全文本预处理:与算法智能分类预处理一致,无需重复处理;
- 基于CA内置聚类等算法,提取告警关键特征信息,对告警进行算法聚类降噪,将关键特征信息与聚类结果关联。
CA算法降噪最高降噪比99.9%,下附聚类效果截图:
进入路径:告警
-> 智能降噪
按钮,即可进入智能降噪界面。未来将支持更多降噪算法,根据您的告警规模、告警特征自行选择降噪算法。
Top50主机聚合分类
新增告警Top50主机聚合分类,将用户团队中告警根据主机类型进行聚类出前50种,帮助用户分析告警关键信息。
进入路径:告警
->智能降噪
->Top50主机聚合分类
告警降噪/压缩持续优化中,欢迎联系我们了解更多。
* 告警编号: 呃呃呃 * 姐夫防腐: dddd * 等待快递打开