设备脱网告警处理方法(设备脱网告警处理方法视频)

来源网友投稿 788 2023-02-16

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈设备脱网告警处理方法,以及设备脱网告警处理方法视频对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享设备脱网告警处理方法的知识,其中也会对设备脱网告警处理方法视频进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

alarm灯亮了咋回事?

连接光猫的光纤接口松脱。光纤已断。光猫故障。光缆故障。上联分光器故障。

交换机(Switch)意为“开关”是一种用于电(光)信号转发的网络设备。它可以为接入交换机的任意两个网络节点提供独享的电信号通路。最常见的交换机是以太网交换机。其他常见的还有电话语音交换机、光纤交换机等。

alarm红灯闪烁

1、接头处光纤熔接不合格或者断裂,重新熔接更换新的接头。

2、分光盒处冷接头未插好或者冷接头坏,更换接头。

3、光交箱处接头未插好,重新拔插,或者更换新接头。

故障恢复方法 告警

‍测试环境中出现了一个异常的告警现象:一条告警通过 Thanos Ruler 的 HTTP 接口观察到持续处于 active 状态,但是从 AlertManager 这边看这条告警为已解决状态。按照 DMP 平台的设计,告警已解决指的是告警上设置的结束时间已经过了当前时间。一条发送至 AlertManager 的告警为已解决状态有三种可能:1. 手动解决了告警2. 告警只产生了一次,第二次计算告警规则时会发送一个已解决的告警3. AlertManager 接收到的告警会带着一个自动解决时间,如果还没到达自动解决时间,则将该时间重置为 24h 后首先,因为了解到测试环境没有手动解决过异常告警,排除第一条;其次,由于该告警持续处于 active 状态,所以不会是因为告警只产生了一次而接收到已解决状态的告警,排除第二条;最后,告警的告警的产生时间与自动解决时间相差不是 24h,排除第三条。那问题出在什么地方呢?

分析

下面我们开始分析这个问题。综合第一节的描述,初步的猜想是告警在到达 AlertManager 前的某些阶段的处理过程太长,导致告警到达 AlertManager 后就已经过了自动解决时间。我们从分析平台里一条告警的流转过程入手,找出告警在哪个处理阶段耗时过长。首先,一条告警的产生需要两方面的配合:

metric 数据

告警规则

将 metric 数据输入到告警规则进行计算,如果符合条件则产生告警。DMP 平台集成了 Thanos 的相关组件,数据的提供和计算则会分开,数据还是由 Prometheus Server 提供,而告警规则的计算则交由 Thanos Rule(下文简称 Ruler)处理。下图是 Ruler 组件在集群中所处的位置:

看来,想要弄清楚现告警的产生到 AlertManager 之间的过程,需要先弄清除 Ruler 的大致机制。官方文档对 Ruler 的介绍是:You can think of Rule as a simplified Prometheus that does not require a sidecar and does not scrape and do PromQL evaluation (no QueryAPI)。

不难推测,Ruler 应该是在 Prometheus 上封装了一层,并提供一些额外的功能。通过翻阅资料大致了解,Ruler 使用 Prometheus 提供的库计算告警规则,并提供一些额外的功能。下面是 Ruler 中告警流转过程:

请点击输入图片描述

请点击输入图片描述

请点击输入图片描述

首先,图中每个告警规则 Rule 都有一个 active queue(下面简称本地队列),用来保存一个告警规则下的活跃告警。

其次,从本地队列中取出告警,发送至 AlertManager 前,会被放入 Thanos Rule Queue(下面简称缓冲队列),该缓冲队列有两个属性:

capacity(默认值为 10000):控制缓冲队列的大小,

maxBatchSize(默认值为 100):控制单次发送到 AlertManager 的最大告警数

了解了上述过程,再通过翻阅 Ruler 源码发现,一条告警在放入缓冲队列前,会为其设置一个默认的自动解决时间(当前时间 + 3m),这里是影响告警自动解决的开始时间,在这以后,有两个阶段可能影响告警的处理:1. 缓冲队列阶段2. 出缓冲队列到 AlertManager 阶段(网络延迟影响)由于测试环境是局域网环境,并且也没在环境上发现网络相关的问题,我们初步排除第二个阶段的影响,下面我们将注意力放在缓冲队列上。通过相关源码发现,告警在缓冲队列中的处理过程大致如下:如果本地队列中存在一条告警,其上次发送之间距离现在超过了 1m(默认值,可修改),则将该告警放入缓冲队列,并从缓冲队列中推送最多 maxBatchSize 个告警发送至 AlertManager。反之,如果所有本地队列中的告警,在最近 1m 内都有发送过,那么就不会推送缓冲队列中的告警。也就是说,如果在一段时间内,产生了大量重复的告警,缓冲队列的推送频率会下降。队列的生产方太多,消费方太少,该队列中的告警就会产生堆积的现象。因此我们不难猜测,问题原因很可能是是缓冲队列推送频率变低的情况下,单次推送的告警数量太少,导致缓冲队列堆积。下面我们通过两个方面验证上述猜想:首先通过日志可以得到队列在大约 20000s 内推送了大约 2000 次,即平均 10s 推送一次。结合缓冲队列的具体属性,一条存在于队列中的告警大约需要 (capacity/maxBatchSize)*10s = 16m,AlertManager 在接收到告警后早已超过了默认的自动解决时间(3m)。其次,Ruler 提供了 3 个 metric 的值来监控缓冲队列的运行情况:

thanos_alert_queue_alerts_dropped_total

thanos_alert_queue_alerts_pushed_total

thanos_alert_queue_alerts_popped_total

通过观察 thanos_alert_queue_alerts_dropped_total 的值,看到存在告警丢失的总数,也能佐证了缓冲队列在某些时刻存在已满的情况。

解决通过以上的分析,我们基本确定了问题的根源:Ruler 组件内置的缓冲队列堆积造成了告警发送的延迟。针对这个问题,我们选择调整队列的 maxBatchSize 值。下面介绍一下这个值如何设置的思路。由于每计算一次告警规则就会尝试推送一次缓冲队列,我们通过估计一个告警数量的最大值,得到 maxBatchSize 可以设置的最小值。假设你的业务系统需要监控的实体数量分别为 x1、x2、x3、...、xn,实体上的告警规则数量分别有 y1、y2、y3、...、yn,那么一次能产生的告警数量最多是(x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn),最多推送(y1 + y2 + y3 + ... + yn)次,所以要使缓冲队列不堆积,maxBatchSize 应该满足:maxBatchSize = (x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn) / (y1 + y2 + y3 + ... + yn),假设 x = max(x1,x2, ...,xn), 将不等式右边适当放大后为 x,即 maxBatchSize 的最小值为 x。也就是说,可以将 maxBatchSize 设置为系统中数量最大的那一类监控实体,对于 DMP 平台,一般来说是 MySQL 实例。

注意事项

上面的计算过程只是提供一个参考思路,如果最终计算出该值过大,很有可能对 AlertManager 造成压力,因而失去缓冲队列的作用,所以还是需要结合实际情况,具体分析。因为 DMP 将 Ruler 集成到了自己的组件中,所以可以比较方便地对这个值进行修改。如果是依照官方文档的介绍使用的 Ruler 组件,那么需要对源码文件进行定制化修改。

台达伺服常见报警解决方法

台达伺服常见报警及解决方法设备脱网告警处理方法

AL011设备脱网告警处理方法:编码器故障。此报警无法复位,只能断电重启。

常见于编码器线松脱或者屏蔽线松脱,解决,方法更换线材。

或者是电机后部编码器部位收到震荡(不规范安装、其设备脱网告警处理方法他硬物撞击等)。解决方法,返厂维修,更换编码器。(不建议自行更换编码器)。

AL001设备脱网告警处理方法:过电流。故障排除后可复位。

常见于输出堵转造成输出电流高于驱动器最大电流设备脱网告警处理方法的1.5倍,解决方法:排查机械部位是否正常。

驱动器输出侧短路,也会造成此报警,检查输出侧导线是否有短路。

驱动器输出模块故障也会造成报警,这种情况常发生于旧机器,只能返厂维修。

驱动器参数设定不正确,造成设备动作过猛,这种问题比较少见,缓慢启动设备排查。

我的定位器2019年11月6号没有电以后就显示脱落报警,而且从6好起一直收不到信息了怎么办?

GPS定位器都是需要流量来传输数据用的,如果是突然就这样了可能有两个原因:

第一,GPS定位器里面的流量卡到期了需要续费。如果是你购买的时候卖家一起配的卡,一般都是使用一年就要续费了。

第二,如果你确定卡没有问题,那么就是设备坏了,如果想要维修就要退回到原厂家那里检测维修了。

海信全自动洗衣机 脱水报警是什么故障?如何修理?

是因为脱水不平衡所以报警,不脱水可能是因为排水阀堵塞引起的。

故障处理方法:

1、检查洗衣机桶内衣物是否缠在一起了,建议重新把衣服摆放平稳。

2、检查排水阀门是否有异物堵塞,建议清理排水阀。

3、不排水造成不脱水,可能是排水阀线圈烧坏。

4、刹车没松开,电机负荷太大造成无法启动,此时能听到嗡嗡声,调整排水法拉杆即可。

5、离合器问题,需修理或更换。

6、电脑板问题,通常要更换。

火灾报警系统故障维修及处理方法

火灾报警系统故障维修及处理方法:

1、火灾报警系统里设备脱网告警处理方法的报警设备报火警后,警铃、声光报警器为何不动作?

可能原因有:
a、请检查消防主机面板上的指示灯是否被点亮设备脱网告警处理方法
b、主机上是否有该警铃或声光报警器的故障信息;
c、警铃或声光报警器现场是否有24v电源;
d、警铃的控制模块类型是否被设置为远音或声光报警器;
e、在联动设置中是否有警铃/声光报警器的输出。
2、消防主机报火警后,有设备请求动作,但为何现场设备没有动作?
设备的反馈信号需要有控制监视类模块返回,可能原因有:
a、现场设备状态没有选择自动状态,不能受模块控制而没能启动。
b、设备已经启动,但设备反馈信号线脱落。
3、某回路为何不停地报故障或反馈,然后又自动消失?消防主机回路故障
不停的报故障,如:设备类型不符或反馈,多为回路线上有较高的干扰,因报火警有较复杂的算法,故不会乱报火警。此时可用“操作”菜单点测试功能可以看到单点测试的5条曲线均较大幅度的波动。通常为回路信号线对地绝缘情况不好,可使用万用表正、反向测量回路对地电阻,正常情况下应大于5mω。
4、某回路报警时为何只能联动一次,后火警或反馈再也报不了?
发生此类问题通常为,探测器/模块的回路线与控制类模块的输出发生有短路现象,在模块没有动作时回路动行似乎很正常,当一但模块发生动作后回路即受到影响,故设备一经动回路就再也不能报火警了。
为何主机既报主电故障,又报备电故障?
可能原因有:
a、检查消防主机电源反馈电缆否连接良好;
b、主机“电源设置”菜单内电源反馈类型是否与使用电源相符。
5、哪些故障可以隔离,哪些故障不可隔离?
按面板上的“隔离”键时可隔离所有联网主机上正在报警(火警、请求/反馈、故障)的所有探测器和模块;在探测器/模块设置菜单内仅能隔离本机任意探测器和模块。隔离功能不能隔离主机的系统故障如:主机通信故障、主机电源故障、接口板通信或回路故障、打印机故障、复示盘故障等。
6、主机为何既不报火警又不报故障但探测器、模块巡检灯还在闪烁?
可能原因有:
a、此现象多为线路上有干扰信号,如果信号线接到天花金属但不接地,此时可用“操作”菜单点测试功能可以看到单点测试的5条曲线均较大幅度的波动,解决办法:断开线路,一段一段接入系统,查处线路问题所在。
b、有模块或探测器正负极性接反也有此现象,测试方法:从主机上拆下回路线,用万用表二极管档测量线路,正常时量线路,正相1800左右,反相400左右。 关于设备脱网告警处理方法和设备脱网告警处理方法视频的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 设备脱网告警处理方法的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于设备脱网告警处理方法视频、设备脱网告警处理方法的信息别忘了在本站进行查找喔。
上一篇:性能测试设备(性能测试设备使用时注意哪些)
下一篇:包含it运维考试题的词条
相关文章

 发表评论

暂时没有评论,来抢沙发吧~