故障告警关联分析(故障告警关联分析报告)

来源网友投稿 1080 2023-03-21

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈故障告警关联分析,以及故障告警关联分析报告对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享故障告警关联分析的知识,其中也会对故障告警关联分析报告进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

lte告警类型有哪些,以及会产生什么影响

1、用户面承载链路故障告警,警告影响:该用户面承载的业务无法正常进行。产生告警原因:自建立模式下,当检测到本端无法和对端正常通讯时,产生此告警。

2、 SCTP链路故障告警,警告影响:导致SCTP链路上无法承载信令。产生告警原因:当基站检测到SCTP(Stream Control Transmission Protocol,流控制传输协议)链路无法承载业务时,产生此告警。

3、 X2接口故障告警,警告影响:基站释放正在通过产生告警的X2接口进行切换的用户,在该告警恢复前,基站将无法继续支持与对应基站间的X2接口切换流程,无法继续支持与对应基站间的小区干扰协调过程。产生告警原因:X2AP(X2 Application Protocol)连接在底层SCTP链路资源可用时,eNodeB将向对端eNodeB发起连接建立请求;对端eNodeB对连接请求做合法性检查,检查不通过,将无法建立连接;eNodeB收到对端eNodeB的响应后,如果发现对端eNodeB在黑名单中将无法建立连接。

当底层SCTP链路故障、X2AP协议层因配置错误或者对端eNodeB异常无法建立连接时,产生此告警。

4、 小区不可用告警,警告影响:小区状态与基带资源、射频资源、CPRI资源和传输资源这些物理资源有关,也与License有关。在物理资源不足、物理资源故障或物理资源被闭塞的情况下,小区状态会因为无可用的物理资源而变为不可用。即使物理资源可用但License不足时,也会导致小区不可用。多模场景下,由于共享资源受限(如频率、功率),也会导致小区不可用。当小区状态变为不可用,且该状态持续90秒(默认)未恢复时,将产生该告警。当小区状态变为可用,且该状态持续15秒(默认)一直可用时,则上报告警恢复。告警产生和恢复的时长可以通过SET ALMFILTER命令进行设置。产生告警原因:供电后自恢复,OMC920每隔1分钟会向被管网元发送握手请求,当被管网元三次无应答时判定通信状态为断连,上报本告警。本告警上报后,只要断连未恢复,OMC920不会因断连期间的故障原因变更而上报新的告警。OMC920会每隔2分钟重连已断开的连接,如果重连成功则自动清除本告警。

5、 S1接口故障告警,警告影响:基站将主动去激活所有与异常的S1接口相关的小区,并释放此前已经成功接入到这些小区内的所有在网用户。新的用户将无法接入到这些小区。

6、 射频单元驻波告警,警告影响:天馈接口的回波损耗过大,系统根据配置决定是否自动关闭射频单元发射通道开关,当“驻波比告警后处理开关”取值为“打开”时,射频单元发射通道开关被关闭且告警无法自动恢复,该发射通道承载的业务中断。当“驻波比告警后处理开关”取值为“关闭”时,射频单元会启动降额(默认3dB,具体由当前的业务状态决定),从而防止硬件损坏, 且告警可以自动恢复。天馈接口的回波损耗较大,导致实际输出功率减小,小区覆盖减小。产生告警原因:当射频单元与对端设备(上级/下级射频单元或BBU)间接口链路(链路层)数据收发异常时,产生此告警。

7、 射频单元维护链路异常告警, 警告影响:射频单元承载的业务中断。产生告警原因:BBU和射频单元之间通过电缆或者光纤进行连接。当BBU与射频单元间的维护链路出现异常时,产生此告警。

8、 BBU IR接口异常告警, 警告影响:在链形组网下,下级射频单元的连接链路中断,下级射频单元承载的业务中断。如果基站工作在CPRI

MUX特性的组网,本制式为汇聚方且故障端口为提供汇聚功能的端口时,会造成对端制式的业务中断。在环形组网下,射频单元连接链路的可靠性下降,下级射频

单元的激活链路将倒换到备份链路上,在热环配置下对业务没有影响,在冷环配置下业务会出现短暂中断。BBU与下级射频单元的光模块的收发性能轻微恶化,可

能导致下级射频单元承载的业务质量出现轻微恶化。产生告警原因:当BBU与下级射频单元之间的光纤链路(物理层)的光信号接收异常时,产生此告警。

9、星卡锁星不足告警,警告影响:如果该告警一直存在,最终会导 致基站GPS时钟源不可用

10、 小区退服告警 ,警告影响:小区建立失败,所有业务中断。产生告警原因:当小区建立失败或小区退出服务,并且原因不是配置管理员人为闭塞时,产生此告警。

另外还有 BBU IR光模块收发异常告警, 基站控制面传输中断告警,网元连接中断,小区服务能力下降告警,射频单元IR接口异常告警,同类告警数量超出门限, BBU IR光模块/电接口不在位告警等警告类型。

急急急!!!兄弟急问联通工作得事情!!

1、引言
随着数据网络的快速发展和移动业务的迅猛增长故障告警关联分析,很多原本从事传输网络运行维护、组织管理故障告警关联分析,甚至是产品研发、生产和销售的人们,突然找不准网络发展的节奏,因此很多人对传输网络的未来充满了忧虑。作为传输网管系统,如何跟随网络发展的步伐更好地发挥其作用成为必须思考和解决的问题。
网络的可靠性、可用性和易维护性是传统电信运营商非常关心的几个要素。其中,网络的易维护性很大程度上取决于网管系统。对于电信运营商而言,网管系统是其提供电信级服务质量不可缺少的重要保障机制。判别网管系统存在价值的大小的依据是,它能够在多大程度上辅助运营商的运维活动,降低OPEX,从而实现网络运维活动的增值。各大电信运营商的维护体制改革不论采用什么样的形式,根本上都是为了改善网络运维组织的工作效率。
2、现阶段传输网络和网管的基本情况
2.1 传输网络的基本情况
DWDM系统为长途干线和本地网提供了巨大容量,SDH(包括MSTP)设备提供了业务的快速自愈能力,微波传输和PDH设备作为快速解决用户接入的一种辅助手段仍在使用。而正在推广使用的ASON设备结合了IP的灵活性,为传输网提供了前所未有的分布式智能,但提供业务的灵活性远不及IP承载网。虽然ASON设备已经被广泛使用,但多是利用其超大容量的特点组成SDH环路,ASON的维护管理仍不成熟。
另外,随着2007年中美海缆的开工建设,国际通信传输网络的容量和安全性将得到巨大提升,但故障告警关联分析我国通信运营企业仍需提高在国际通信传输市场的地位。
据预测,在未来的25年内IP骨干网和城域网的带宽将每6个月翻一番。这对于分布广泛、网络拓扑复杂、业务类型多样的城域网来说,问题更加突出。对此需要运用多种流量模型进行预测,需要在网络的扩展性和运行维护的便利性间寻求平衡。
2.2 传输网管的基本情况
目前,各设备提供商的网管系统基本上都能够管理从SDH、DWDM到ASON的全系列产品,现有的传输网管系统仍然继承和发扬了其传统功能,即配置管理、性能管理、故障管理、计费管理和安全管理。同时,国内运营企业纷纷通过北向接口建设了上层的综合网管系统,力图解决“七国八制”的传输网络给网络运行维护带来的种种弊端,但实施效果远未达到预期目标。
值得一提的是,为了能够迅速解决光缆线路中断后抢修难度大、故障修复历时长的问题,基于光信号检测的OLP(光纤自动倒换)系统得到了广泛使用。OLP系统的网管也能对在用纤芯的光功率进行简单的监测,并能通过网管发布指令进行一些简单的倒换操作。
目前,运营商网络中共存着设备提供商的网管系统、集成服务商的网管系统、应用管理的网管系统、综合网管系统等,传输网管机房内因此摆满了各种网管设备。比较尴尬的是,企业自己开发建设的综合网管系统可以辅助运行维护工作,但离不开各类设备提供商的网管系统。维护人员的日常工作虽然已经有了较为成熟的模式,但不得不奔忙在各套网管系统之间,距离管理的自动化和简单化目标还很远。
3、现有传输网管存在的主要问题
(1)日益扩大的网络规模与网管易读性之间的矛盾
现有的各类传输网管基本上都是在早期SDH网管的基础上完善和改进的,功能越来越多且越来越复杂,处理能力较早期确实大大得到提高,但却忽视了简化网管、净化界面的重要性。这种网管功能的堆砌往往造成维护过程中信息过多,导致网管整体效率下降。传输网络的故障处理很大程度上仍然依赖于操作维护人员的经验积累。
解决这个矛盾,笔者认为网管系统应实现以下功能。
●要求网管系统既能快速、准确地上报告警,又能直观地反映出故障的真正位置。不是维护人员在告警堆里找故障,而是要求网管系统具备告警关联分析和故障呈现功能。
●在故障出现的同时,要求网管系统能够迅速提供简要的分析(如业务是否中断、业务中断比例等),指导故障恢复工作。
●要求网管系统能够对关键动态运行参数(如网络的可用率,网络的整体性能偏离情况等)、网络资源进行自动统计和分析。
●要求网管系统提供类似于Windows桌面整理助手的工具,对于长期不用的交叉连接、端口进行清理提示。
(2)越来越复杂的网管和降低维护人力成本之间的矛盾
从降低企业运行成本的角度考虑,需要降低维护人员的素质门槛要求或者减少维护人员的数量。就目前设备商提供的网管系统而言,很难实现这一点。运营商的网络的规模在迅速扩大,人力成本却相对降低了,这多是以加大现有维护人员工作强度并提高维护人员的工作效率来实现的。例如引入智能光网络后,不仅在原有网管的基础上引入了很多新的理念,还要求维护人员能够熟练地运用一些专用分析工具,才能完成一些最基本的网络操作维护(如割接的审批、网络质量的评价等),这无形之中提高了对维护人员的要求。
(3)用户接入的多样性与通过网管快速反应之间的矛盾
随着业务创新力度的不断加大,要求传输网络特别是城域网有足够的灵活性和可扩展性,尤其是快速的业务开通和故障处理能力,而网管系统的能力在这方面起着关键作用。城域网采用了FTTx、MSTP、城域以太网、T-MPLS、VPN-FRR等多种技术,但最终用户并不关心运营商网络中采用的技术、网络性能、设备成本等,最终用户需要的是高质量的业务和可靠、迅速的服务。而现有的网管系统基本上还是“以我为主”,以“网络设备”为中心。只有网管能够直接反映出“最终用户的直观感受”,以客户为中心,才能真正拥有技术手段上的支持。
(4)集中式网管与分布式处理、设备现场操作之间的矛盾
从网络负荷平衡和网络健壮性角度来看,分布式处理是未来网管的发展方向,而且可以满足网络对伸缩性的要求。
随着网络规模的日益扩大,集中式网管系统必然导致系统处理负荷急剧增加。集中网管的最大问题是指挥人员和现场操作人员的信息不对称,现有网管系统基本上都不能直观地呈现设备现场的具体情况(如线缆连接情况、机盘告警等),对现场操作人员的指挥和指导很容易出现疏漏或错误。
(5)设备厂商的网管系统与综合网管系统之间的矛盾
开发综合网管系统的目的之一是将目前的多厂商网管系统统一起来,简化和规范目前的维护工作,给网络管理者提供准确、快速的数据和分析。从目前的使用情况来看,还是存在以下一些问题。
●综合网管系统与设备厂商网管系统功能重复较多。综合网管系统利用设备厂商网管系统北向接口提供的各类信息,也提供了告警管理、拓扑管理、性能管理等功能。综合网管系统要想实现与设备厂商网管系统基本一致的实时告警呈现是非常困难的事情,更何况这种实时管理极其消耗综合网管系统的资源。
●综合网管系统自身的局限性决定了其自身维护工作量太大。为保障综合网管系统的稳定工作,首先要保证其连接的设备厂商网管系统接口长期稳定工作,需要及时地处理接口故障,需要在设备软硬件升级后及时进行相应的升级开发工作。另外,由于北向接口自身的局限性,很多信息做不到自动识别和刷新,在每次网络调整后甚至是正常的网络维护作业后,需要人工维护这些信息(包括大量的静态资源信息)。
4、对现有传输网管工作的建议
(1)合理的传输网管组织形式
●减少设备提供商的数量,采用集中式的网管监控方式和集中的数据制作。实现网管数据的集中,可以减少数据的交互,有利于提高网管系统的性能,实现并发挥数据的价值。采用集中管理方式特别要注意的是,不仅要赋予集中网管更大的责任,还要赋予它们更大的管理权。
●根据实际情况,合理配置EMS和NMS。EMS和NMS各有优缺点,很多底层功能重复。配置网管时不能生搬硬套,而要结合实际的维护体制和综合网管要实现的功能进行配置。其中EMS相对来说功能基本满足需求,北向接口功能丰富故障告警关联分析;而NMS相对来说功能较为丰富,且支持OSS。
●避免网管带外DCN重复建设,保障带外DCN的稳定运行。
●根据传输网络全程全网的特点组织网管,不能人为地按照管理制度割裂网络,至少要保证一张网内的各个业务单元可以实时“看”到全局情况。
(2)充分、有效地发挥综合网管的作用
综合网管系统的开发、建设和使用的目的不应是替代设备厂商网管系统,而应是能够屏蔽厂商差异和规范局数据的快速制作等。与此同时,综合网管系统不宜求全,尽量避免与原设备厂商网管系统的功能重复,应该利用有限的资源集中精力解决突出的一些问题。
●在维护管理上建立高效、规范的维护管理机制,实现运维管理流程自动化,能够适应运营商业务流程的灵活调整。
●通过实现告警信息与客户业务电路的关联,及时提示工作人员对受影响的大客户和高等级业务电路进行应急处理和管理。对实现SLA业务提供技术和手段上的保障。
●重点解决静态、动态的资源管理,解决好资源整合问题。
●解决好跨专业多种业务系统的协作问题。
5、未来传输网管系统的发展方向
现阶段电信运营企业正在寻找新的盈利模式,朝着综合服务运营商转型的过程中,新型的运营模式对网管系统提出了更高的要求,即网管系统的智能化、综合化、简单化和个性化。
●网管的智能化是指繁杂的维护工作由网管系统自动完成,降低人为干预的工作量和工作难度。这种智能包括网络设备之间的信息交互智能、网络设备与网络管理者之间的信息交互智能。
●网管的综合化要求网管系统能够提供面向网络、业务、用户等多个功能的统一管理。而实现网管的综合化的前提是网管系统必须能够处理更大的信息量和更复杂的业务行为,更便于集中化的管理。
●网管的简单化是指通过减少操作人员的工作难度,降低对操作人员的要求,提高运行维护工作的整体运行效率。
●网管的个性化管理是企业精细化运营的必然结果,运营商需要深入了解用户和业务的细节,提供最贴近用户的深度感知。这就要求网管系统必须具备灵活的扩展能力,其管理功能可以根据运营商管理的设备类型、管理范围、网络规模、管理形式、业务类型等方便地进行界面定制和模块调整。
6、结束语
传输网管系统发展到今天已经比较完善和成熟,但仍然需要跟着运营商转型的步伐,创新网管开发理念,以满足精细化运维管理的需要。
好处是不用天天往外跑,坏处是全天候工作,经常加班。工资不会差的

故障分析和处理的过程、工具与方法

(1)处理过程

1、确认故障,是否真的是故障、故障的表现是什么等。

2、分析故障影响,影响的对象、影响的范围、影响的程度等。

3、查看应用、系统日志,看日志是否有关联的报错或告警日志。

4、检查监控告警平台是否有告警信息。

5、查看服务器或集群容量和性能指标,主要看是否有容量指标超阀值,性能出现瓶颈等。

6、是否是变更导致了问题。

7、确定故障处理方案,现场如何保护、处理步骤是什么,有什么风险等。

8、处理故障

9,验证故障处理结果
(2)分析方法

1、对比分析

2、排除法

3、历史数据分析

4、趋势分析

5、时序日志分析法

(三)处理方法

1、故障隔离

2、交易降级

3、熔断

4、交易限流

5、服务、进程重启

6、服务器重启

7、变更回退

SIEMENS810D数控机床报警产生流程,及故障分析。

(一)常规诊断法
对数控机床的机、电、液等部分进行的常规检查,通常包括:(1)检查电源的规格(包括电压、频率、相序、容量等)是否符合要求;(2)CNC、伺服驱动、主轴驱动、电机、输入/输出信号的连接是否正确、可靠;(3)CNC、伺服驱动等装置内的印制电路板是否安装牢固,接插部位是否有松动;(4)CNC、伺服驱动、主轴驱动等部分的设定端、电位器的设定、调整是否正确;(5)液压、气动、润滑部件的油压、气压等是否符合机床要求;(6)电器元件、机械部件是否有明显的损坏。
(二)状态诊断法
通过监测执行元件的工作状态判定故障原因。在现代数控系统中,伺服进给系统、主轴驱动系统、电源模块等部件主要参数的动、静态检测,及数控系统全部输入输出信号包括内部继电器、定时器等的状态,也可以通过数控系统的诊断参数予以检查。
(三)动作诊断法
通过观察、监视机床的实际动作,判断动作不良部位,并由此来追溯故障源。
(四)系统自诊断法
这是利用系统内部自诊断程序或专用的诊断软件,对系统内部的关键硬件以及系统的控制软件进行自我诊断、测试的诊断方法。主要包括开机自诊断、在线监控和脱机测试三个方面的内容。
数控机床常见故障及排除方法

一、 操作数控机床的直线轴的正负方向时,直线轴都向一个方向移动
在数控机床的维修中,无论数控机床采用什么品牌的数控系统,很多维修人员都遇到过如下一种故障,即数控机床的直线轴,无论开正、负方向,直线轴都向沿着撞坏机械的方向运动。以数控车床的X轴为例,具体说明一下。数控车床的X轴运动至+X方向的限位附近时,无论你按+X还是-X方向,X轴都向着+X方向运动。
出现这种故障时,一般显示单元没有报警,原因是由于机床X轴惯性等原因,X轴的位置处于+X轴的软限位与硬限位之间。
解决此类故障的方法是:将X轴的正、副软限位修改为大于硬限位的数值(如X轴的正负硬限位坐标为100,-800,可将软限位暂时设定为1000,-1000),用手动将X轴开向偏离X轴故障方向的方向(如上述举例所示的-X方向),感觉X轴的坐标处于+X和-X之间时,重新设置X轴的软限位,并回参考点后,故障即消除。
二、光栅尺作为数控机床的直线轴的位置检测元件时常见的几种故障
1、直线轴在回参考点中,找不到零脉冲。在表现形式上就是该轴在回参考点时一直运行直到撞到该轴的限位。
这种故障发生的原因一般是读数头或光栅尺肮了。
解决此类故障的方法是:把读数头卸下来用无水乙醇冲洗干净,用丝绸布沾上无水乙醇把带有刻度部分清洁干净即可。
2、数控机床的直线轴在运行中出现报警。
数控机床在运行中,如果采用西门子840D或德国力士乐数控系统的某个直线轴,出现报警“硬件编码器错误”;如果采用西班牙FAGOR数控系统的某个直线轴,出现报警“跟随误差超界”。这时候一般是作为机床直线轴的位置检测元件的光栅尺出故障了。
这种情况下,由于震动或其它原因,一般是机床在使用中使读数头与光栅刻度尺的距离远了,数控系统误认为光栅尺坏了。处理该故障的方法是按光栅尺说明书的要求调整读数头与光栅尺的距离。读数头与光栅尺尺身之间的间距为1~1.5mm左右,最好别超过2mm.。
出现上述故障的另外一种原因是光栅尺的安装位置不合适,如安装在油池附近,油气等将光栅尺污染,这时候就要把光栅尺的“定尺”和“动尺”分别进行清洁,然后再安装之后进行光栅尺的调试才可使用。
还有一种故障情况也会出现上述报警,那就是由于读数头的位置安装不合适,造成读数头损坏,更有甚者,光栅尺定尺内出现铝合金碎屑,光栅刻线出现损坏,造成光栅尺定尺的彻底报废。
3、数控机床的直线轴出现暴走
当数控机床的直线轴安装有光栅尺时,如果该直线轴出现暴走,一般情况下是该直线轴的位置检测元件————光栅尺被污染,需要对光栅尺的光栅或读数头进行保洁才可消除故障。
在多年的数控机床维修中,我们发现光栅尺作为数控系统的位置检测元件,在机床的机械部分良好的情况下,可以提高机床直线轴的定位精度。除此之外,光栅尺还可以检测机床机械部分存在的隐患或问题,下面就几个维修案例进一步说明。
4、HG3018美国CAPCO磨床机床颤抖
从美国CAPCO公司进口的HG3018轧辊数控磨床,采用德国BOSCH CC220数控系统, X轴为全闭环控制方式,位移检测元件采用德国海德汉玻璃光栅尺。当机床操作者无意中拿木条轻轻击打机床砂轮架外壳体时,人站在工作台上,感觉机床产生剧烈的颤动。
从这个现象看,该故障的产生,肯定带有机床本身的一些动作,绝对不是纯粹的机床某个零部件松了,人拿木头条轻轻“砸”机床外壳导致的结果。经查证,是X轴的滚珠丝杠背冒松造成的:当人拿木条轻轻砸机床砂轮架外壳时,因为X轴的驱动依靠滚珠丝杠来实现,很轻便,由于X轴滚珠丝杠背冒松动,故砂轮架会有一个微小的移动。这时候,数控系统检测到在没有发出X轴移动信号的情况下,X轴移动了,肯定是“非法的”,这时候数控系统会发出与砂轮架移动方向反向的“给定”信号,使砂轮架反向移动。由于滚珠丝杠背冒的松动,X轴反向移动时会走过头,此时砂轮架在数控系统的指挥下,又向与之前移动方向反向移动。。。。。如此往复,造成砂轮架的震动。
在长期对数控机床的维修中,我们发现,光栅尺不仅仅作为位置环的检测元件,还能成为机床直线轴的“监督”元件。当机械存在故障隐患时,如果该轴采用光栅尺控制,该故障隐患会通过光栅尺将隐患“放大”,以故障的形式表现出来。没有采用光栅尺的机床,出现机械故障隐患时,往往不容易表现出来,直至故障隐患扩大化,变成硬性故障。
5、C61200数控车床加工轧辊辊身时出现X轴前后窜动
我公司从武重购买的C61200车床经过数控化改造后,采用西班牙FAGOR 8055TC数控系统。该机床有一天在加工轧辊时,由于轧辊的辊身比较偏,正常情况下,轧辊辊身应该是圆柱形,但由于浇注原因,该轧辊辊身各部直径尺寸不一,呈现椭圆形。致使当机床的刀具吃上辊身尺寸较大的地方时,在无X轴移动指令的情况下,X轴自行往远离轧辊的方向移动。当刀具接触上轧辊辊身尺寸比较“瘦”的地方时,X轴自行向靠近轧辊的方向移动,造成X轴的前后窜动.
其原因如下:我们首先对该机床的数控系统进行检查,发现X轴在加上“使能”信号的情况下,其交流伺服电机加上了自锁力。当把X轴的位置检测元件屏蔽掉后,改成半闭环,再进行吃刀加工,发现之前的X轴前后窜动的现象消失了。 看到这种现象后,有人判断认为是光栅尺出了问题,而我认为恰恰是X轴光栅尺完好无损,才可以发现机械存在的隐患。通过检查X轴滚珠丝杠,发现是滚珠丝杠的背帽松了。正因为X轴滚珠丝杠的背帽松了,在轧辊旋转中,由于辊身是椭圆形,在刀具接触上轧辊辊身尺寸比较大的地方时,由于轧辊辊身对X轴有一个“向远离轧辊直径方向的顶力”,X轴被“顶”向远离轧辊直径的方向,此时X轴的移动不是机床数控指令所致。但用于检测X轴的位置的光栅尺发现在没有数控系统发出指令的情况下,X轴向“+X”方向(远离轧辊辊身直径的方向)移动,光栅尺的作用是,通过检测直线轴在数控指令的作用下,该直线轴移动是否准确,如果该直线轴移动不准确,通过数控系统的干预,使该直线轴定位至准确位置。因此当刀具接触上轧辊辊身尺寸比较“瘦”的地方时,刀具与轧辊辊身有了一定间隙,通过光栅尺的作用,使X轴向靠近轧辊直径的方向移动,定位至由数控系统发出的X轴坐标位置。这样轧辊每转一周,在X轴没有数控指令移动的情况下,X轴就出现“远离轧辊直径方向”和“靠近轧辊直径方向”的交替移动。故加工偏辊时,X轴由于滚珠丝杠背帽的松动使其产生来回窜动。
6、 齐重RT125数控车床移动Z轴时出现震动
我们从齐重购买的RT125数控车床,有一天在移动Z轴时出现震动,我们原认为是光栅尺出了问题,后来经检查发现该车床的导轨上表面被铁屑划出痕迹所致。
验证自己判断故障产生的原因是否正确的方法是,将该轴的控制方式改为半闭环即将光栅尺屏蔽掉,这种震动即可消失或减轻了很多。此时有人会说那就干脆屏蔽掉光栅尺后使机床工作吧。这只是临时措施,该轴屏蔽掉光栅尺后的加工精度肯定比以前要降低很多。
在十几年的数控机床维修中,我们遇到了无数的和光栅尺有关联的故障,基本上都是机械本身出现了问题。这说明光栅尺还可以把数控机床潜在的机械存在的问题检测出来,并以故障的形式表现出来。
7、 数控机床直线轴采用全闭环时出现故障而采用半闭环时“貌似”故障消除的现象
数控机床的某个直线轴采用全闭环时出现电机抖动、轴震荡等现象,而将位置检测元件屏蔽掉,这种不正常的现象消失,一般情况下,处理该类故障的方法如下:
首先检查位置检测元件,如光栅尺及读数头是否清洁,读数头的安装位置是否合理,排除掉位置检测元件不正常的因素。
如果能保证位置检测元件良好的情况下,一般情况下就是该直线轴的机械传动链出现了问题,此时应检查直线轴的机械传动链是否有部件松动现象、机械部件是否有磨损、机械传动链的相关润滑是否良好。
三、 与伺服电机编码器相关的故障
编码器作为伺服电机的速度反馈元件,无论该直线轴是否有位置检测元件,只要伺服电机的编码器或其线路有虚接的地方,都会使该直线轴暴走。有时候检查编码器线虚接也不是很容易的事:插头的针是否有短的,插头各针脚是否有歪斜的,插头焊接的信号线及电源线是否有接触不良的,在校线中一定要用数字万用表。下面以一个具体例子说明一下校线的不易及注意事项。
四、 数控车床床头箱异响
新购青海重型机床厂的CK84140轧辊车床,主轴箱有两个档位,机床操作人员反应,在使用高速档时,主轴箱内有齿轮击打的声音。当时机械修理技师要拆主轴箱大盖,我让他暂停。我认为,如果真像机床操作人员说的那样,只有在主轴一个档位时,旋转主轴,主轴箱内发出击打齿轮的异响,那肯定是机械的原因造成的。我需要核对机床操作人员反馈来的信息是否正确。结果发现,在主轴两个档位的低速段,旋转主轴,主轴箱内都发出齿轮击打的声音。操作者没有正确反应信息,原因是主轴处于慢档的低速段时,转速范围很短,一不留神,用电位器调速就调过去了。
既然主轴在两个档位的低速段,旋转主轴,主轴箱内出现异响,首先要核对主轴电机在这个速度段,旋转是否平稳。该主轴控制系统采用西门子6SE70变频器,在变频器的显示器上,用只读参数r19诊断主轴电机的转速发现,主轴转速在这个速度段运行不平稳。经过对主轴调速系统的调试和带载优化,主轴速度平稳了,就不会出现由于主轴电机运行不平稳从而出现齿轮在转动中,啮合齿轮之间不能匀速转动,出现的齿轮击打声。
五、 数控磨床磨削锥面产品异常
数控磨床在磨削锥面产品或修正锥面砂轮时,需要X、Z轴联动时,有时会出现:Z轴一个方向运动时,吃刀大;Z轴往另一个方向运动时,吃刀很小或吃刀断断续续。这种现象在磨削锥面产品时,Z轴在往复运动中,吃刀大的一个方向,磨削的火花大,吃刀小的一个方向,磨削的火花很小。若在修复锥面砂轮时,出现上述现象,可从金刚石笔与砂轮接触的“沙沙”声的大小判断。
遇到这种情况,说明数控磨床的磨削程序虽然按照砂轮或产品的指定的锥面编制,但X、Z轴的联动速度没有在同一时间内达到十分“合拍”。为什么按照指定的磨削路径编制数控加工程序,而未能达到理想境界呢?这种没有机床报警的故障很难处理,处理方法如下:
1、 检查数控磨床的尾座上砂轮修整用的金刚石笔座在尾座上把合的是否牢靠及金刚石笔是否松动。
2、 无论数控磨床采用的数控系统是西门子系列还是发格、博世力士乐及发那科系列等,一般情况下,调整X、Z轴的轴参数中的“比例系数”参数至同一数值。此时上述磨削中,Z轴在往复磨削中,由于X、Z轴的响应特性一样,两轴联动效果会很好。
六、 数控磨床磨削产品出现振纹及螺旋纹等的原因
数控磨床在磨削产品时,若磨削的产品表面出现振纹或螺旋纹,其原因是可能是多种多样的,可依据如下情况查找:
1、 金刚石笔是否松动
如果修正砂轮的金刚石笔出现松动,修整的砂轮表面自然会凹凸不平,磨削的产品出现表面质量是在所难免的。
2、 砂轮主轴和工件主轴转速是否平稳
检查砂轮主轴和工件主轴的转速是否平稳:在诊断主轴转速的时候,,让所查看的主轴给定至一个速度,可以从主轴控制器的诊断参数中查看其是否在变化,变化的多少是多少。也可以用转速仪测速。如果主轴转速不稳,磨削的工件表面就会出现楞状。
3、 砂轮主轴及工件主轴电机的散热风机是否有震动
主电机的散热风机有震动直接影响磨削产品的表面质量。
4、 磨头的检查
测磨头的径跳和轴向窜动,若超标,就要采取技术措施。若磨头的径跳超出标准值,在无法更换磨头的情况下,可以将磨头主轴油的粘度提高,来缓解磨头的劣势对磨削产品的影响。
5、 床头箱拨爪及自位板
在磨削的工件旋转中,如果床头箱的拨爪与磨削的工件有相对位移;如果床头箱的自位板在工件旋转中间歇地滑动,磨削的工件的表面质量会受到很大的影响。
七、 数控机床手脉常见故障
手持单元是数控机床必不可少的手动操作部件,其可以很方便机床操作人员对刀。在多年的数控机床维修中,经常遇到的手持单元故障及方便操作人员使用机床时需要注意的事项如下:
1、 数控机床直线轴的自行移动
如果采用西门子数控系统的数控机床在手动界面下,在机床操作人员不施加指令的情况下,出现直线轴的缓慢移动;如果采用FAGOR数控系统的数控机床在手动界面下,在机床操作人员不施加指令的情况下,出现直线轴的快速移动。此时手持单元处于X轴激活状态,X轴就出现非法移动,如果手持单元的Z轴处于激活状态,Z轴就出现非法的移动。此时故障的根源是手持单元的0伏线松动或虚接所致。
2、用手持单元操作时,出现轴的选择轴混乱
如果用手持单元选择手动操作机床时,如果选择X轴,在X轴运行中偶尔出现X轴不运行而其它轴(比如Z轴)运行,一般情况下,手持单元及手持单元至操作站的手脉插头间的导线不会出现问题,真正的故障源在操作站与电柜之间的手持单元的相关线路出现了导线外皮裸露。

故障恢复方法 告警

‍测试环境中出现故障告警关联分析了一个异常故障告警关联分析的告警现象:一条告警通过 Thanos Ruler 的 HTTP 接口观察到持续处于 active 状态故障告警关联分析,但是从 AlertManager 这边看这条告警为已解决状态。按照 DMP 平台的设计,告警已解决指的是告警上设置的结束时间已经过了当前时间。一条发送至 AlertManager 的告警为已解决状态有三种可能:1. 手动解决了告警2. 告警只产生了一次,第二次计算告警规则时会发送一个已解决的告警3. AlertManager 接收到的告警会带着一个自动解决时间,如果还没到达自动解决时间,则将该时间重置为 24h 后首先,因为了解到测试环境没有手动解决过异常告警,排除第一条;其次,由于该告警持续处于 active 状态,所以不会是因为告警只产生了一次而接收到已解决状态的告警,排除第二条;最后,告警的告警的产生时间与自动解决时间相差不是 24h,排除第三条。那问题出在什么地方呢故障告警关联分析

分析

下面我们开始分析这个问题。综合第一节的描述,初步的猜想是告警在到达 AlertManager 前的某些阶段的处理过程太长,导致告警到达 AlertManager 后就已经过了自动解决时间。我们从分析平台里一条告警的流转过程入手,找出告警在哪个处理阶段耗时过长。首先,一条告警的产生需要两方面的配合:

metric 数据

告警规则

将 metric 数据输入到告警规则进行计算,如果符合条件则产生告警。DMP 平台集成了 Thanos 的相关组件,数据的提供和计算则会分开,数据还是由 Prometheus Server 提供,而告警规则的计算则交由 Thanos Rule(下文简称 Ruler)处理。下图是 Ruler 组件在集群中所处的位置:

看来,想要弄清楚现告警的产生到 AlertManager 之间的过程,需要先弄清除 Ruler 的大致机制。官方文档对 Ruler 的介绍是:You can think of Rule as a simplified Prometheus that does not require a sidecar and does not scrape and do PromQL evaluation (no QueryAPI)。

不难推测,Ruler 应该是在 Prometheus 上封装了一层,并提供一些额外的功能。通过翻阅资料大致了解,Ruler 使用 Prometheus 提供的库计算告警规则,并提供一些额外的功能。下面是 Ruler 中告警流转过程:

请点击输入图片描述

请点击输入图片描述

请点击输入图片描述

首先,图中每个告警规则 Rule 都有一个 active queue(下面简称本地队列),用来保存一个告警规则下的活跃告警。

其次,从本地队列中取出告警,发送至 AlertManager 前,会被放入 Thanos Rule Queue(下面简称缓冲队列),该缓冲队列有两个属性:

capacity(默认值为 10000):控制缓冲队列的大小,

maxBatchSize(默认值为 100):控制单次发送到 AlertManager 的最大告警数

了解了上述过程,再通过翻阅 Ruler 源码发现,一条告警在放入缓冲队列前,会为其设置一个默认的自动解决时间(当前时间 + 3m),这里是影响告警自动解决的开始时间,在这以后,有两个阶段可能影响告警的处理:1. 缓冲队列阶段2. 出缓冲队列到 AlertManager 阶段(网络延迟影响)由于测试环境是局域网环境,并且也没在环境上发现网络相关的问题,我们初步排除第二个阶段的影响,下面我们将注意力放在缓冲队列上。通过相关源码发现,告警在缓冲队列中的处理过程大致如下:如果本地队列中存在一条告警,其上次发送之间距离现在超过了 1m(默认值,可修改),则将该告警放入缓冲队列,并从缓冲队列中推送最多 maxBatchSize 个告警发送至 AlertManager。反之,如果所有本地队列中的告警,在最近 1m 内都有发送过,那么就不会推送缓冲队列中的告警。也就是说,如果在一段时间内,产生了大量重复的告警,缓冲队列的推送频率会下降。队列的生产方太多,消费方太少,该队列中的告警就会产生堆积的现象。因此我们不难猜测,问题原因很可能是是缓冲队列推送频率变低的情况下,单次推送的告警数量太少,导致缓冲队列堆积。下面我们通过两个方面验证上述猜想:首先通过日志可以得到队列在大约 20000s 内推送了大约 2000 次,即平均 10s 推送一次。结合缓冲队列的具体属性,一条存在于队列中的告警大约需要 (capacity/maxBatchSize)*10s = 16m,AlertManager 在接收到告警后早已超过了默认的自动解决时间(3m)。其次,Ruler 提供了 3 个 metric 的值来监控缓冲队列的运行情况:

thanos_alert_queue_alerts_dropped_total

thanos_alert_queue_alerts_pushed_total

thanos_alert_queue_alerts_popped_total

通过观察 thanos_alert_queue_alerts_dropped_total 的值,看到存在告警丢失的总数,也能佐证了缓冲队列在某些时刻存在已满的情况。

解决通过以上的分析,我们基本确定了问题的根源:Ruler 组件内置的缓冲队列堆积造成了告警发送的延迟。针对这个问题,我们选择调整队列的 maxBatchSize 值。下面介绍一下这个值如何设置的思路。由于每计算一次告警规则就会尝试推送一次缓冲队列,我们通过估计一个告警数量的最大值,得到 maxBatchSize 可以设置的最小值。假设故障告警关联分析你的业务系统需要监控的实体数量分别为 x1、x2、x3、...、xn,实体上的告警规则数量分别有 y1、y2、y3、...、yn,那么一次能产生的告警数量最多是(x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn),最多推送(y1 + y2 + y3 + ... + yn)次,所以要使缓冲队列不堆积,maxBatchSize 应该满足:maxBatchSize = (x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn) / (y1 + y2 + y3 + ... + yn),假设 x = max(x1,x2, ...,xn), 将不等式右边适当放大后为 x,即 maxBatchSize 的最小值为 x。也就是说,可以将 maxBatchSize 设置为系统中数量最大的那一类监控实体,对于 DMP 平台,一般来说是 MySQL 实例。

注意事项

上面的计算过程只是提供一个参考思路,如果最终计算出该值过大,很有可能对 AlertManager 造成压力,因而失去缓冲队列的作用,所以还是需要结合实际情况,具体分析。因为 DMP 将 Ruler 集成到了自己的组件中,所以可以比较方便地对这个值进行修改。如果是依照官方文档的介绍使用的 Ruler 组件,那么需要对源码文件进行定制化修改。

关于故障告警关联分析和故障告警关联分析报告的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 故障告警关联分析的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于故障告警关联分析报告、故障告警关联分析的信息别忘了在本站进行查找喔。
上一篇:告警延时处理方案(延误警告是对全队的)
下一篇:变电站智能运维画面模拟(变电站智能运检)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~