告警与事件集成（告警与事件集成联动）

4747 908 2022-10-29

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本文目录一览：

1、如何才能做到对告警通知有效管理？
2、如何快速、灵活的实现告警通知，第一时间解决问题？
3、有效运维的 on-call 机制

如何才能做到对告警通知有效管理？

其实在一线运维工作中，常常是福不双至，故障不单行。每有运维问题发生的时候，往往会密集发生多个告警。当这些告警来袭的时候，一线运维人员要针对它的类型、等级、告警对象和内容等进行检查并选用合适的方法来应对。

告警等级较高时，比如持续出错的应用告警，在查验后会立即分派通知相关的负责人在第一时间开具事件工单，做对应的流程追踪；而遇到低等级或次要的系统告警，则可以暂缓处置，留作观察。

传统的处置方式需要用经验来判断问题的影响范围和严重性，再通过人工进行派单以及通知下游处理人员，这样效率低下，无法满足现今业务响应速度的要求了。

究其原因，有些周期性发生的高频问题，往往并不是最棘手的，是可以延后处置的。反而偶发的问题，比较需要特别关注（如果这是原始定级较高的故障，更应该第一时间关注）。

告警与事件集成（告警与事件集成联动）

如何快速、灵活的实现告警通知，第一时间解决问题？

数据中心产生告警噪音，一般由两个大的原因所引起：1、存在大量重复的告警：大多数监控系统关注的点在快速、无遗漏地将异常告警抛出。2、大量的告警因为服务组件之间的相互依赖关系、相互影响，而产生的大量的关联告警。

所以，在告警发生的时候，可以使用告警优先级推荐算法来分析处理问题。根据规律特征进行判别，看是否需要立即关注。再配合自动化工具，将推荐等级与原始等级都高的告警加上筛选规则，进行自动化开单处置。发现推荐等级与原始等级有背离的部分，可以筛选出来做复盘，对告警原始的等级进行优化，或者转化成升降级的规则逻辑来处置告警等级。擎创告警辨析中心4.0是擎创科技研发的新一代智能告警管理、分析及处置平台，可配置能力更成熟，具有更开放的集成能力，可以将数据中心的监控系统、ITSM流程平台系统、自动化引擎系统、知识库系统、通知类平台等系统无缝集成，并驱动整个数据中心运维体系更快、更智能、更流畅运行。不仅可以满足科技能力及数据治理较强的企业需求，同时也可以通过智能化手段满足科技及数据治理较差企业的需求。

有效运维的 on-call 机制

[编者按]本文作者为陈伯龙，云告警平台 OneAlert 创始人，著《云计算与 OpenStack 》，在IT运营管理、云计算方面从业10多年。

互联网技术的发展，离不开运维支撑工作，没有零bug的程序，没有不出问题的系统，问题故障不可怕，可怕的是没能有序的处理：

如何有效处理紧急事件驱动的工作，成为（特别是运维主管）运维工作的关键。我接触了大量的各类型公司运维，从初创、中小、大型公司，总结和分享一些大多公司通用的on-call机制，帮助有序的处理紧急事件：

基本上都是围绕人、流程、工具三方面进行，参考了ITIL的管理思路，大家感兴趣也可以参考下，特别是其中的ITIL V3的运营管理。

大多公司都用了zabbix和nagios、open-falcon等监控工具，对硬件、网络、应用进行监控。可能会存在监控分散问题：

告警集中化，就是所有的生产监控发现的告警事件集中到一起，这样我们盯着一个平台就够了，同样也容易分析问题，是不是相同和类似原因。

如果监控工具单一，集中化不是最必要的，如何有序处理才是最核心的。特别运维团队是3-5人到数十／百人，就很有必要梳理下支撑流程和响应机制了。

如果管理比较细一些，还会进行业务拆分，形成一个矩阵，例如一线、二线根据不同专业，如负责网络和负责不同应用的团队。

另外还要考虑告警严重的程度级别，进行差异化处理，要求严格的同学一般会建立响应级别[1-3]或[1-5]：

那么问题来了，规划和设计挺好，如何落地呢？目前看zabbix、nagios、open-falcon等监控工具更多是聚焦如何发现问题，支撑流程属于处理问题的范畴，或者是说管理范畴，这一点目前市面上合适工具较少：

接触过一个互联网金融公司，设计了非常规范化的流程和P0-P5级别应急处理方案，涉及了网络、云平台、近50个应用研发团队。

分派升级

排班管理

再好的流程和设计，当时没有及时收到通知和处理，那么就会很郁闷了，最后一公里问题解决方式：

还支持几点：不同级别、不同时间段的设置，例如晚上严重的电话通知，白天工作时间就不用了。

这里面还存在一个问题，当告警规模大了后，特别是告警风暴的话，很容易撑爆邮箱或者是手机短信了，所以接下来就聊下告警风暴规避的问题。

这个问题比较大，基本上有些监控工具做了一部分，目前看也是一个业界难题，简单来说：

我们目前做了一些尝试分享下：

机器学习告警合并

如果告警量很大，告警后续处理和跟踪往往会依赖于外部团队（部门外或公司外）。但是监控告警粒度太细了，可能很多告警都是一个事情。如上面的告警风暴中，由于应用程序故障，引发引发了大量的异常，之后又产生连锁反应，其实就是一个事情，只需要处理一个事情就行。

一般来说一线人员会采用邮件或者电话方式，直接通知对应负责人，但是这个就很难追踪和事后分析，所以一套事件管理机制。

ITIL规范的事件Incident流程很有参考价值，感兴趣同学参考下。事件工单需要：

事件单

影响范围和紧急程度的交叉矩阵影响到优先级

On-Call机制建立后，通过告警和事件数据分析、建立起以数据指标驱动的团队文化，有机会和大家分享。

标签：告警管理告警平台告警风暴告警通知事件管理

暂时没有评论，来抢沙发吧~

告警与事件集成（告警与事件集成联动）

如何才能做到对告警通知有效管理？

如何快速、灵活的实现告警通知，第一时间解决问题？

有效运维的 on-call 机制

实时警报通知：微信告警通知的重要性解析

告警通知变得轻松便捷——微信告警接口指南

睿象云智能告警平台的分派策略