实时警报通知:微信告警通知的重要性解析
865
2022-12-27
本文目录一览:
作为企业数字化转型的重要手段,IT运维效率的高低会直接影响到业务的正常运转,传统运维走向智能运维,其实就是运维数字化的过程。在智能运维建设过程中,先平台还是先场景,对于很多企业用户来说一直是个难题。如果用户对自身数据情况了解非常清晰,且希望打破数据孤岛以建立统一运维数据平台,那么可以优先选择平台建设;如果用户明确知道底层平台需要的能力,寄希望于能直接带来业务价值,可以优先选择场景建设。
例如一家城市商业银行,它目前最大的问题可能只是监控效能低下,误报漏报多,我们可以先从集中告警入手,利用算法去重降噪,再查看相关告警之间的有效告警场景,筛选出最可能影响业务问题的告警。在提高告警处理效率后,再通过分析告警的源头,进一步解决监控指标静态阈值设定不准确的问题,用智能异常检测替代之,从而根本上提升监控效能。这就是场景化方式导入智能运维的方法。
智能运维建设,可以根据用户实际运维情况,同步开展,循序渐进地进行建设。擎创根据以往经验,总结出三个原则六步走的最佳实践方案,我们首先可以通过集中监控智能化改造、指标监控智能化改造和日志异常检测(弥补监控手段不足)等提升实时性数据处理能力,再通过智能故障排查(根因分析和定位)、智能知识管理(知识图谱)和故障自愈提升数据事后分析和处理能力。
对于有些公司提出的,运维成熟度不高不敢考虑智能运维?
运维成熟度度高的的企业,可以按照数据处理能力的维度,统一规划、分层实施,实现从运维数据局部集中到跨域集中,也就是先建立运维大数据平台,通过加强数据治理、优化数据质量,而后再过渡到基于算法的统计分析乃至流式实时处理,构建多样化智能运维场景,逐层实现智能运维能力建设。
但这种方式并非放之四海而皆准,对于成熟度不高的企业,迫切需要解决的是实际运维问题,而智能运维这时应该能成为解决实际问题的工具,它可以根据客户当前的运维成熟度选择具体应用场景,按照不同的路线图进行建设,这才是智能运维的应有的能力。智能运维的本质就是逐步提升对运维数据的分析处理能力。
其实在一线运维工作中,常常是福不双至,故障不单行。每有运维问题发生的时候,往往会密集发生多个告警。当这些告警来袭的时候,一线运维人员要针对它的类型、等级、告警对象和内容等进行检查并选用合适的方法来应对。
告警等级较高时,比如持续出错的应用告警,在查验后会立即分派通知相关的负责人在第一时间开具事件工单,做对应的流程追踪;而遇到低等级或次要的系统告警,则可以暂缓处置,留作观察。
传统的处置方式需要用经验来判断问题的影响范围和严重性,再通过人工进行派单以及通知下游处理人员,这样效率低下,无法满足现今业务响应速度的要求了。
究其原因,有些周期性发生的高频问题,往往并不是最棘手的,是可以延后处置的。反而偶发的问题,比较需要特别关注(如果这是原始定级较高的故障,更应该第一时间关注)。
所以,在告警发生的时候,可以使用告警优先级推荐算法来分析处理问题。根据规律特征进行判别,看是否需要立即关注。再配合自动化工具,将推荐等级与原始等级都高的告警加上筛选规则,进行自动化开单处置。发现推荐等级与原始等级有背离的部分,可以筛选出来做复盘,对告警原始的等级进行优化,或者转化成升降级的规则逻辑来处置告警等级。
关于告警去重降噪和主动降噪关闭的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 告警去重降噪的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于主动降噪关闭、告警去重降噪的信息别忘了在本站进行查找喔。发表评论
暂时没有评论,来抢沙发吧~