告警处理流程¶
睿象云智能告警平台 CA 能够接收国内外主流监控工具产生的告警,像zabbix 告警设置等;若未直接集成的告警,如果按照 CA 平台提供的 REST API 格式推送告警信息,CA 平台也能全量接收。
告警状态¶
-
待认领/发生:监控工具检测到问题时,会推送事件信息到 CA 平台,在 CA 平台触发新告警,然后根据分派策略,分派给告警相关待处理人,然后按照通知策略通知被分派人,每个人的通知方式可以自定义。事件信息推送到 CA 平台后,如果当前事件 eventId 与系统中未关闭的告警有相同 eventId,则当前事件不触发新告警,仅在原未关闭告警更新发生频率;如果无相同 eventId,则在 CA 平台新触发一个告警,进行分派通知。
-
已认领:认领可以确认问题的所有权,用户进行认领操作后,会停止分派升级过程
-
已关闭/已恢复:问题修复了。
告警关闭三种方式:
-
在界面手动关闭;
-
通过监控工具推送的恢复信息自动关闭告警;
-
在 CA平台设置自动关闭时间,超时自动关闭。
告警处理流程¶
-
通过集成接收告警
提示
CA 平台会根据 eventId 自动去重相同事件,如果有相同 eventId,则事件不会触发新的告警,反之,触发新的告警。
-
通过分派策略分派告警给人
新触发的告警,会通过分派策略,分派给成员/组/排班/钉钉讨论组。分派策略可以根据告警内容、告警级别进行分派;也可以在分派策略中设置认领超时升级分派策略,如一线支持组,10 分钟无人认领告警,就自动升级分派给二线支持组,可以设置多级升级机制,系统推荐不多于 9 个升级。
-
通过电话、短信、微信、邮件、APP、钉钉通知告警
分派给用户的告警,用户可以通过多种方式接收通知。用户可以在通知策略中自定义设置通知策略:
-
支持分别设置告警状态:发生时、认领时、关闭时;
-
告警发生时间:任何时间、工作时间、非工作时间;
-
告警级别:严重、警告、提醒;
-
延迟策略:立刻通知、5 分钟后通知、10 分钟后通知……;
-
通知方式:电话、短信、微信、邮件、APP。
提示
user仅能设置自己的通知策略,admin可以设置所有人的通知策略。
- 告警认领和关闭
用户收到告警发生的通知时,用户可以根据情况是否认领(或关闭)告警。关闭时可以填写解决方案。认领和关闭告警的操作支持多种方式:
-
web 界面,在告警详情界面,点击
认领/关闭
按钮即可; -
微信端,点击告警详情,点击
认领/关闭
按钮即可; -
APP 端,在告警列表页,点击
认领/关闭
按钮即可; -
钉钉客户端,点击告警机器人推送的告警信息,选择
认领人/关闭人
,点击确认
按钮即可。
提示
在钉钉客户端,
认领人/关闭人
仅能在已分派人中选择,其他客户端如果未分派人点击了认领/关闭
按钮,默认将操作人加入到分派人中。 -