实时警报通知:微信告警通知的重要性解析
1721
2022-12-28
本文目录一览:
晚上收到服务接口电话告警,第一时间通过prometheus查看服务耗时却正常。这就奇怪了,为了确保告警程序没有问题,不是误报。登录服务器查看告警程序的日志,通过日志发现确实是接口调用频繁超时引起的告警。因为告警程序部署在阿里云,而服务部署在k8s。我们的告警逻辑是通过告警程序调用部署在k8s服务接口,如果接口超时超过一定的次数就告警。因为告警程序和服务部署在不同的机房,于是认为是网络抖动引起的,因为前几天就发送过k8s网络组建出现问题导致服务调用耗时突然变高。后面同事去向运维确定下是否k8s的nginx-ingress-controller是否出现问题,后面运维同事确认是因为k8s nginx-ingress-controller在新的扩容机器出问题了。一开始不太明白为什么nginx-ingress-controller出现问题会引起服务耗时很高,后面自己缕了下调用关系。因为我们还有邮件告警,邮件告警是监听nginx的error日志来告警,邮件内容告警的内容都是status 504,504错误表示nginx调用服务出问题了。那么接下来只需要找到服务方是谁就可以了。而我们的nginx又会调用k8s ingress controller的nginx,nginx-ingress-controller进而调用部署在k8s的服务,整个调用链路是这样的。
前端接口请求-lvs-阿里云nginx-nginx-ingress-controller-service
邮件告警内容是阿里云nginx报出来的,显示status504.
所以下一步需要排查k8s ingress controller和我们的服务本身有无问题。
通过监控指标,我们排查了服务本身正常,那么可以确定是nginx-ingress-controller出了问题,后面排查确实是一个nginx-ingress-controller的node节点出问题导致。
总结
排查问题要有思路,根据关键信息去排查问题事半功倍。比如这次邮件告警提示的status 504,顺着这个思路去排查很快可以定位问题。
是连接电话机插口(之一)。
1、这几个字母是telephone电话告警 API接口的缩写电话告警 API接口,即是电话电话告警 API接口的意思。
TEL指示灯又叫做语音电话指示灯,表示光猫和局端的连接状态。
光猫上面电话机插口一般有两个TEL1和TEL2,只有光猫背部有电话接口,正面才会有此指示灯。
2、根据光猫的状态灯的颜色变化,可以判断电话机是否通畅。
常亮:表示TEL接口已经与语音服务器建立连接。
快闪:表示TEL 接口已经与语音服务器建立连接且处于摘机或者振铃状态。
慢闪:表示TEL 接口正在向语音服务器注册。
熄灭:表示TEL接口未与语音服务器建立连接。
扩展资料:
1、光猫除电话告警 API接口了有TEL电话接口之外,还要LAN口,LOS状态灯等。
LOS状态灯:和ADSL猫上link指示灯功能类似,用来表示光链路的链接状态。
颜色变化为红色闪烁时,表示光猫未收到后台局端设备的光信号,业务不通
颜色变化为光信号熄灭时,表示设备已收到光信号,光猫成功注册到后台局端设备上,业务正常使用。
2、LAN接口,即RJ-45端口,它是我们常见的双绞线以太网端口,能直接用来连接电脑。
快速以太网中采用双绞线作为传输介质,主要是用于路由器与局域网进行连接,所以根据端口的通信速率不同,RJ-45端口又可分为百兆端口和千兆端口两类,目前来说,我们平常用的一般为百兆端口。
将CMDB系统与Prometheus连接,实现批量部署配置文件,批量管理告警信息等
1.收到告警后,能通过页面针对不合理的阈值进行单个
批量修改,在告警消息上能针对
单个阈值进行修改。
2.对应用进行分组,并针对该组制定告警规则。
3.告警发送通道的自助式配置。
4.维护窗口进行告警的单个
批量静默。
1.告警大屏上展示告警的关键信息,如应用、IP、维护者、重要性。
2.告警数据的分析,哪些应用或实例告警频率高。
3.告警的个例、批量修改,修改的记录有留痕。
哪里问题多?什么问题?。
1.平台下发数据是否正常,涉及规则、应用实例是否按既定规则推送。
2.规则变更后的生效时间,目前15分钟。
3.告警发生差异,触发阈值的告警数及送达告警数。
4.告警消息轨迹及时延,从产生告警及送达对应的通道。
1.针对硬件、网络、系统、应用(部分业务)四类采集器进行自助式告警规则、告警模板、应用分组配置。
2.自助式进行告警规则启用、禁用、静默。
3.告警大盘展现,不同级别不同颜色。
4.告警通知:钉钉@到人,接入电话、短信告警。
5.简化告警模板。
6.告警渠道管理。
7.支持用户订阅告警消息。
8.支持延迟通知设置。
9.行为日志记录:规则变更、阈值变更、静默变更。
10.告警消息上点击操作数据能同步到后端并处理。
发表评论
暂时没有评论,来抢沙发吧~