实时警报通知:微信告警通知的重要性解析
847
2023-02-04
本文目录一览:
将CMDB系统与Prometheus连接,实现批量部署配置文件,批量管理告警信息等
1.收到告警后,能通过页面针对不合理的阈值进行单个
批量修改,在告警消息上能针对
单个阈值进行修改。
2.对应用进行分组,并针对该组制定告警规则。
3.告警发送通道的自助式配置。
4.维护窗口进行告警的单个
批量静默。
1.告警大屏上展示告警的关键信息,如应用、IP、维护者、重要性。
2.告警数据的分析,哪些应用或实例告警频率高。
3.告警的个例、批量修改,修改的记录有留痕。
哪里问题多?什么问题?。
1.平台下发数据是否正常,涉及规则、应用实例是否按既定规则推送。
2.规则变更后的生效时间,目前15分钟。
3.告警发生差异,触发阈值的告警数及送达告警数。
4.告警消息轨迹及时延,从产生告警及送达对应的通道。
1.针对硬件、网络、系统、应用(部分业务)四类采集器进行自助式告警规则、告警模板、应用分组配置。
2.自助式进行告警规则启用、禁用、静默。
3.告警大盘展现,不同级别不同颜色。
4.告警通知:钉钉@到人,接入电话、短信告警。
5.简化告警模板。
6.告警渠道管理。
7.支持用户订阅告警消息。
8.支持延迟通知设置。
9.行为日志记录:规则变更、阈值变更、静默变更。
10.告警消息上点击操作数据能同步到后端并处理。
其实在一线运维工作中,常常是福不双至,故障不单行。每有运维问题发生的时候,往往会密集发生多个告警。当这些告警来袭的时候,一线运维人员要针对它的类型、等级、告警对象和内容等进行检查并选用合适的方法来应对。
告警等级较高时,比如持续出错的应用告警,在查验后会立即分派通知相关的负责人在第一时间开具事件工单,做对应的流程追踪;而遇到低等级或次要的系统告警,则可以暂缓处置,留作观察。
传统的处置方式需要用经验来判断问题的影响范围和严重性,再通过人工进行派单以及通知下游处理人员,这样效率低下,无法满足现今业务响应速度的要求了。
究其原因,有些周期性发生的高频问题,往往并不是最棘手的,是可以延后处置的。反而偶发的问题,比较需要特别关注(如果这是原始定级较高的故障,更应该第一时间关注)。
所以,在告警发生的时候,可以使用告警优先级推荐算法来分析处理问题。根据规律特征进行判别,看是否需要立即关注。再配合自动化工具,将推荐等级与原始等级都高的告警加上筛选规则,进行自动化开单处置。发现推荐等级与原始等级有背离的部分,可以筛选出来做复盘,对告警原始的等级进行优化,或者转化成升降级的规则逻辑来处置告警等级。
学网络,就在IE-LAB
国内高端网络工程师培养基地
现网排错之8个ARP的告警信息如何快速处理?马上来学习吧!
01
ARP_1.3.6.1.4.1.2011.5.25.123.2.1hwEthernetARPSpeedLimitAlarm
1) 告警解释
ARP/4/ARP_SUPP_TRAP:OID [OID] Exceed the speed limit value configured. (Ifnet index=[INTEGER], Configured value=[COUNTER], Sampling value=[COUNTER], Speed-limit type=[OCTET], Source Ip address=[IPADDR], Destination Ip address=[IPADDR], VPN-Instance name=[OCTET]).
ARP报文或ARP Miss消息的发送速率超出限制时,系统会产生此告警。可以通过arp speed-limit source-ip命令设置速率上限,其中系统默认速率上限为500。
2) 报警原因
原因1:
配置对潜在的攻击行为写日志和发送告警时间间隔为N,在第N+1秒时间内上送ARP报文数配置的阈值并且前N秒上送ARP报文平均数配置的阈值。
原因2:
配置对潜在的攻击行为写日志和发送告警时间间隔为N,在第N+1秒时间内上送ARP Miss数配置的阈值并且前N秒上送ARP Miss平均数配置的阈值。
3) 处理步骤
1. 查看告警信息中时间戳抑制类型。
o ARP=2。
o ARP Miss=4。
2. 执行命令display arp anti-attack configuration查看ARP速率限制值。
3. 执行命令arp speed-limit source-ip [ ip-address ] maximum maximum,重新设定ARP时间戳抑制的最大值,该值必须大于第2步查看到的值,否则无法解除告警,但最大不能超过16384。查看告警是否恢复。
4. 请收集告警信息和配置信息,并联系技术支持人员。
5. 结束。
02
ARP_1.3.6.1.4.1.2011.5.25.123.2.4hwEthernetARPThresholdExceedAlarm
1) 告警解释
ARP/4/ARP_THRESHOLDEXCEED_TRAP:OID [OID] The number of ARP entries exceeded the threshold. (entPhysicalIndex=[INTEGER], Slot name=[OCTET], Threshold=[COUNTER], Number of dynamic ARP entries=[COUNTER], Number of static ARP entries=[COUNTER]).
ARP表项数量超过阈值时,设备产生告警。
2) 报警原因
设备上学习到的ARP表项数量超过了设定的阈值。
3) 处理步骤
1. 执行display arp statistics命令查看设备上ARP表项统计信息,根据网络规划和业务部署,确定是静态ARP表项还是动态ARP表项数量较多。
o 动态ARP表项数量较多=2。
o 静态ARP表项数量较多=3。
2. 执行display arp命令确定哪些接口的ARP表项数量较多,对于ARP表项数量较多的接口,执行display arp interface命令查看指定接口下的ARP表项,检查这些ARP表项是否是用户需要的。
o ARP表项是用户需要的=5。
o 如果ARP表项不是用户需要的,在确保业务不受影响的前提下,可以执行reset arp命令手动清除部分ARP表项=4。
3. 执行display current-configuration命令,检查配置的静态ARP表项是否是用户需要的。
o 静态ARP表项是用户需要的=5。
o 静态ARP表项不是用户需要的,在确保业务不受影响的前提下,可以执行undo arp static命令,通过指定参数删除指定的静态ARP表项或者执行reset arp static命令手动清除全部静态ARP表项=4。
4. 执行display arp statistics命令观察设备的ARP表项总数是否还会异常增加。
o ARP表项不会持续增加=6。
o ARP表项还会持续增加=5。
5. 请收集告警信息和配置信息,并联系技术支持人员。
6. 结束。
03
ARP_1.3.6.1.4.1.2011.5.25.123.2.5hwEthernetARPThresholdResumeAlarm
1) 告警解释
ARP/4/ARP_THRESHOLDRESUME_TRAP:OID [OID] The number of ARP entries was restored to the threshold. (entPhysicalIndex=[INTEGER], Slot name=[OCTET], Threshold=[COUNTER], Number of dynamic ARP entries=[COUNTER], Number of static ARP entries=[COUNTER]).
ARP表项的数量由超阈值减少到阈值范围内时,上报清除告警。
2) 报警原因
设备上ARP表项的数量由超阈值减少到阈值范围内。
3) 处理步骤
1. 正常运行信息,无需处理。
04
1) 告警解释
ARP/4/ARP_IPCONFLICT_TRAP:OID [OID] ARP detects IP conflict. (IP address=[IPADDR], Local interface=[OCTET], Local MAC=[OCTET], Local vlan=[INTEGER], Local CE vlan=[INTEGER], Receive interface=[OCTET], Receive MAC=[OCTET], Receive vlan=[INTEGER], Receive CE vlan=[INTEGER], IP conflict type=[OCTET]).
ARP检测到以太网络中存在IP地址冲突。
2) 可能原因
· 原因1:ARP报文中的源IP地址与本设备的接口IP地址相同,但是MAC地址不相同。
· 原因2:ARP报文中的源IP地址和本设备上已经存在的ARP表项的IP地址相同,但是源MAC地址和对应的ARP表项的MAC地址不相同。
· 原因3:ARP报文中的源IP地址为0.0.0.0(probe ARP报文),目的IP地址与本设备的接口IP地址相同,但是MAC地址不相同。
3) 处理步骤
1. 根据告警信息,确定冲突的设备或者用户。
o 如果能确定冲突的设备或者用户,请及时修改相关的IP地址,及时消除冲突配置=2。
o 如果不能确定冲突的设备或者用户,请收集告警信息和配置信息,并联系技术支持人员。
2. 结束。
05
ARP_1.3.6.1.4.1.2011.5.25.123.2.9hwEthernetARPLearnStopAlarm
1) 告警解释
ARP/4/ARP_LEARNSTOP_TRAP:OID [OID] ARP learning stopped because the memory usage reached the threshold. (Slot index=[INTEGER], Threshold=[COUNTER]).
设备单板内存的占用率达到指定的阈值(单板内存重启阈值-1。例如,1G内存单板的内存重启阈值是90%,当单板内存占用率达到89%时,产生该告警;2G内存单板的内存重启阈值是95%,当单板内存占用率达到94%时,产生该告警)时,ARP停止学习。
2) 可能原因
当前设备上指定单板的内存占用率达到重启阈值-1,ARP停止学习。
3) 处理步骤
1. 执行display health命令查看单板内存的占用率情况。
2. 请收集告警信息和配置信息,并联系技术支持人员。
06
ARP_1.3.6.1.4.1.2011.5.25.123.2.10hwEthernetARPLearnResumeAlarm
1) 告警解释
ARP/4/ARP_LEARNRESUME_TRAP:OID [OID] ARP learning recovered because the memory usage fell below the threshold. (Slot index=[INTEGER], Threshold=[COUNTER]).
设备单板内存的占用率恢复到指定的阈值(单板内存重启阈值-1。例如,1G内存单板的内存重启阈值是90%,当单板内存占用率达到89%时,产生该告警;2G内存单板的内存重启阈值是95%,当单板内存占用率达到94%时,产生该告警)以下时,ARP重新开始学习。
2) 可能原因
当前设备上指定单板的内存占用率由达到单板内存重启阈值-1恢复到单板内存重启阈值-1以下时,ARP重新开始学习。
3) 处理步骤
1. 正常运行信息,无需处理。
07
ARP_1.3.6.1.4.1.2011.5.25.123.2.11hwEthernetARPRemoteBackupFailAlarm
1) 告警解释
ARP/4/ARP_NO_ACCORD_TRAP: OID [OID] The remote ARP entry backup fail. (Mainif name=[OCTET]).
ARP表项远端备份失败。
2) 可能原因
备端设备检测到处理ARP远端备份报文失败,比如:备份报文进入队列失败。
3) 处理步骤
1. 执行display message-queue命令查看设备的消息队列的使用情况,检查ARP消息队列是否已满。
o ARP消息队列已满=3。
o ARP消息队列没有满=2。
2. 执行display arp命令查看设备上ARP表项的信息,检查主端和备端设备上的ARP表项是否一致。
o 两端ARP表项一致=4。
o 两端ARP表项不一致,请在确保业务不受影响的前提下,在主端设备上执行batch-backup service-type arp now命令手动再备份一次ARP表项。
3. 请收集告警信息和配置信息,并联系技术支持人员。
4. 结束。
08
ARP_1.3.6.1.4.1.2011.5.25.123.2.12hwEthernetARPRemoteBackupFailResumeAlarm
1) 告警解释
ARP/4/ARP_NO_ACCORD_RESUME_TRAP: OID [OID] The remote ARP entry backup succeed. (Mainif name=[OCTET]).
ARP表项远端备份失败恢复。
2) 可能原因
备端设备检测到周期内备份ARP表项成功。
3) 处理步骤
1. 正常运行消息,无需处理。
*本文版权所有 华为技术有限公司 侵删
【思科CCNA华为HCIA初级混讲班】本课程满足在校及零基础入门想要学习网络的同学,将两大厂商初级认证需要掌握的理论及实验打包一起学习,轻松区分技术应用中的异同……
2022年希望你成为网络工程师行业的又一位技术大牛,不再羡慕别人的薪资和工作,闯出属于自己的一片天地。
发表评论
暂时没有评论,来抢沙发吧~