实时警报通知:微信告警通知的重要性解析
1128
2022-12-27
本文目录一览:
将CMDB系统与Prometheus连接告警规则管理,实现批量部署配置文件告警规则管理,批量管理告警信息等
1.收到告警后,能通过页面针对不合理的阈值进行单个
批量修改,在告警消息上能针对
单个阈值进行修改。
2.对应用进行分组,并针对该组制定告警规则。
3.告警发送通道的自助式配置。
4.维护窗口进行告警的单个
批量静默。
1.告警大屏上展示告警的关键信息,如应用、IP、维护者、重要性。
2.告警数据的分析,哪些应用或实例告警频率高。
3.告警的个例、批量修改,修改的记录有留痕。
哪里问题多告警规则管理?什么问题?。
1.平台下发数据是否正常,涉及规则、应用实例是否按既定规则推送。
2.规则变更后的生效时间,目前15分钟。
3.告警发生差异,触发阈值的告警数及送达告警数。
4.告警消息轨迹及时延,从产生告警及送达对应的通道。
1.针对硬件、网络、系统、应用(部分业务)四类采集器进行自助式告警规则、告警模板、应用分组配置。
2.自助式进行告警规则启用、禁用、静默。
3.告警大盘展现,不同级别不同颜色。
4.告警通知:钉钉@到人,接入电话、短信告警。
5.简化告警模板。
6.告警渠道管理。
7.支持用户订阅告警消息。
8.支持延迟通知设置。
9.行为日志记录:规则变更、阈值变更、静默变更。
10.告警消息上点击操作数据能同步到后端并处理。
其实在一线运维工作中,常常是福不双至,故障不单行。每有运维问题发生的时候,往往会密集发生多个告警。当这些告警来袭的时候,一线运维人员要针对它的类型、等级、告警对象和内容等进行检查并选用合适的方法来应对。
告警等级较高时,比如持续出错的应用告警,在查验后会立即分派通知相关的负责人在第一时间开具事件工单,做对应的流程追踪;而遇到低等级或次要的系统告警,则可以暂缓处置,留作观察。
传统的处置方式需要用经验来判断问题的影响范围和严重性,再通过人工进行派单以及通知下游处理人员,这样效率低下,无法满足现今业务响应速度的要求了。
究其原因,有些周期性发生的高频问题,往往并不是最棘手的,是可以延后处置的。反而偶发的问题,比较需要特别关注(如果这是原始定级较高的故障,更应该第一时间关注)。
所以,在告警发生的时候,可以使用告警优先级推荐算法来分析处理问题。根据规律特征进行判别,看是否需要立即关注。再配合自动化工具,将推荐等级与原始等级都高的告警加上筛选规则,进行自动化开单处置。发现推荐等级与原始等级有背离的部分,可以筛选出来做复盘,对告警原始的等级进行优化,或者转化成升降级的规则逻辑来处置告警等级。
Apache SkyWalking告警
Apache SkyWalking告警是由一组规则驱动告警规则管理,这些规则定义在config/alarm-settings.yml文件中。
告警规则的定义分为三部分。
告警规则:定义告警规则管理了触发告警所考虑的条件。
webhook:当告警触发时告警规则管理,被调用的服务端点列表。
gRPCHook:当告警触发时告警规则管理,被调用的远程gRPC方法的主机和端口。
Slack Chat Hook:当告警触发时告警规则管理,被调用的Slack Chat接口。
微信 Hook:当告警触发时,被调用的微信接口。
钉钉 Hook:当告警触发时,被调用的钉钉接口。
告警规则有两种类型,单独规则(Individual Rules)和复合规则(Composite Rules),复合规则是单独规则的组合。
单独规则主要有以下几点:
标签的设置必须把数据存储在meter-system中,例如: Prometheus , Micrometer。以上四个标签设置必须实现 LabeledValueHolder 接口。
对于多个值指标,例如 percentile ,阈值是一个数组。像 value1 value2 value3 value4 value5 这样描述。 每个值可以作为度量中每个值的阈值。如果不想通过此值或某些值触发警报,则将值设置为 - 。 例如在 percentile 中, value1 是P50的阈值, value2 是P75的阈值,那么 -,-,value3, value4, value5 的意思是,没有阈值的P50和P75的 percentile 告警规则。
举个例子:
复合规则(Composite Rules)
复合规则仅适用于针对相同实体级别的告警规则,例如都是服务级别的告警规则:service_percent_rule service_resp_time_percentile_rule。
不可以编写不同实体级别的告警规则,例如服务级别的一个告警规则和端点级别的一个规则:service_percent_rule endpoint_percent_rule。
复合规则主要有以下几点:
规则名称:在告警信息中显示的唯一名称,必须以_rule结尾。
expression:指定如何组成规则,支持, ||, ()操作符。
message:该规则触发时,发送的通知消息。
Slack Chat Hook
您需要遵循传入Webhooks入门指南并创建新的Webhooks。
如果您按以下方式配置了Slack Incoming Webhooks,则告警消息将按 Content-Type 为 application/json 通过HTTP的 POST 方式发送。
举个例子:
微信Hook
只有微信的企业版才支持 Webhooks ,如何使用微信的 Webhooks 可参见如何配置群机器人。
如果您按以下方式配置了微信的 Webhooks ,则告警消息将按 Content-Type 为 application/json 通过HTTP的 POST 方式发送。
举个例子:
钉钉 Hook
您需要遵循自定义机器人开放并创建新的Webhooks。为了安全起见,您可以为Webhook网址配置可选的密钥。
如果您按以下方式配置了钉钉的 Webhooks ,则告警消息将按 Content-Type 为 application/json 通过HTTP的 POST 方式发送。
举个例子:
发表评论
暂时没有评论,来抢沙发吧~