本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈如何分析告警,以及告警定义对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
今天给各位分享如何分析告警的知识,其中也会对告警定义进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
协议转换器指示灯告警故障及排除方法有哪些?
1、故障:V.35线路不通,转换器LOS告警指示灯常亮。
分析:转换器出现LOS告警,说明传输设备接入转换器的E1信号出现信号丢失。
原因及解决:
a.连接光端机E1发送和转换器E1接收的E1线缆出现故障。可用万用表测量判断。更换E1线缆,可解决故障;
b.光端机故障,E1接口无信号发送,或光端机未加电。可通过万用表测量光端机是否有电源输入,或光端机电源是否短路,或自环光端机E1接口观察LOS告警状态。检修电源供电系统或更换光端机,可解决故障。
c.转换器故障,E1接口无法接收信号。可通过断开转换器以太网线,自环E1接口,观察LOS告警状态进行判断,LOS告警不消除,判断设备故障。更换转换器,可解决故障。
2、故障:V.35线路不通,转换器AIS告警指示灯常亮。
分析:转换器出现AIS告警,说明连接光端机E1发送和转换器E1接收的E1线缆连接正常,但无信号,此时转换器收到本端光端机发送的全“1”码。
原因及分析:
a.对端光端机未接收到对断转换器发送的E1信号。需检查对端E1线缆连接是否正常。
b.对端光端机、转换器无法加电,需检修供电系统。c.对端光端机、转换器损坏,需进行检查,并更换设备。
3、故障:V.35线路不通,RD灯不亮。
分析:转换器出现RD灯不亮,说明转换器未接到路由器发送的信号。
原因及分析:
a.路由器V.35模块损坏,无法发送V.35信号。需更换路由器恢复线路。
b.V.35线缆故障,无法传送V.35信号。需更换转换器或路由器V.35线缆恢复线路。
c.转换器故障,无法接收V.35信号。需更换转换器恢复线路。
4、故障:V.35线路不通,TD灯不亮。
分析:对端V.35信号未传送到本端,本端转换器无信号发送到本端路由器,此灯不亮与本端转换器、路由器无关,非本端设备故障。
原因及分析:
a.对端路由器损坏无法发送V35信号,或转换器损坏无法接收V.35信号,或V.35线缆故障,对端转换器会出现RD灯不亮需,更换路由器恢复线路。
b. 对端路由器、转换器无法加点,导致V.35信号无法传送到本端,本端及无信号输出。
如何快速、灵活的实现告警通知,第一时间解决问题?
数据中心产生告警噪音,一般由两个大的原因所引起:1、存在大量重复的告警:大多数监控系统关注的点在快速、无遗漏地将异常告警抛出。2、大量的告警因为服务组件之间的相互依赖关系、相互影响,而产生的大量的关联告警。
所以,在告警发生的时候,可以使用告警优先级推荐算法来分析处理问题。根据规律特征进行判别,看是否需要立即关注。再配合自动化工具,将推荐等级与原始等级都高的告警加上筛选规则,进行自动化开单处置。发现推荐等级与原始等级有背离的部分,可以筛选出来做复盘,对告警原始的等级进行优化,或者转化成升降级的规则逻辑来处置告警等级。擎创告警辨析中心4.0是擎创科技研发的新一代智能告警管理、分析及处置平台,可配置能力更成熟,具有更开放的集成能力,可以将数据中心的监控系统、ITSM流程平台系统、自动化引擎系统、知识库系统、通知类平台等系统无缝集成,并驱动整个数据中心运维体系更快、更智能、更流畅运行。不仅可以满足科技能力及数据治理较强的企业需求,同时也可以通过智能化手段满足科技及数据治理较差企业的需求。
如何才能做到对告警通知有效管理?
其实在一线运维工作中,常常是福不双至,故障不单行。每有运维问题发生的时候,往往会密集发生多个告警。当这些告警来袭的时候,一线运维人员要针对它的类型、等级、告警对象和内容等进行检查并选用合适的方法来应对。
告警等级较高时,比如持续出错的应用告警,在查验后会立即分派通知相关的负责人在第一时间开具事件工单,做对应的流程追踪;而遇到低等级或次要的系统告警,则可以暂缓处置,留作观察。
传统的处置方式需要用经验来判断问题的影响范围和严重性,再通过人工进行派单以及通知下游处理人员,这样效率低下,无法满足现今业务响应速度的要求了。
究其原因,有些周期性发生的高频问题,往往并不是最棘手的,是可以延后处置的。反而偶发的问题,比较需要特别关注(如果这是原始定级较高的故障,更应该第一时间关注)。
所以,在告警发生的时候,可以使用告警优先级推荐算法来分析处理问题。根据规律特征进行判别,看是否需要立即关注。再配合自动化工具,将推荐等级与原始等级都高的告警加上筛选规则,进行自动化开单处置。发现推荐等级与原始等级有背离的部分,可以筛选出来做复盘,对告警原始的等级进行优化,或者转化成升降级的规则逻辑来处置告警等级。
运维告警等级详解
互联网时代 IT 相关的衍生产品有很多,监控工具为其中的佼佼者。很多监控工具对于确保网站和应用的平稳运行做了非常多的工作,但是,对于告警产生到通知用户的过程,还有很大的改进空间。
在合理评估告警严重程度的基础上,确保通知合适的运维汪,对于快速有效解决事件至关重要。但是我们对告警等级的重要性以及如何设置告警等级来提高团队效率,还缺少必要的认识。针对该问题,以下几条快速指南可以供大家参考。
什么是告警等级?有什么重要性?
简单来说,告警等级是表征事件严重性的指标之一,取决于事件对用户体验以及网站或应用整体性能造成的负面影响的大小。
例如,导致网站崩溃的事件,被认为负面影响极大,告警等级也就较高;而一个Ping的问题有时不会很明显,被认为负面影响略小,告警等级也就较低。
告警等级的重要性体现在以下方面:
有助于减少和控制告警噪声的数量。
使得错误处理流程更为顺畅。
使你解决问题更有效率。
总而言之,根据告警等级不同,可以优先处理重要事件,避免干扰到不在职责范围内的无关人员。
怎样创建合适的团队告警等级规则?
确定告警等级的重要性,相信大家已经了解了,但如何创建一个适合整个团队事件严重程度的评估方法,是监控工具开发人员的棘手问题。
一般来说,评估告警等级过程需考虑以下3个方面:
1.严重性等级结构
2.团队结构
3.通信结构
1)严重性等级结构
严重性等级的主要目的是确保合适的人员能够知道问题,并按照严重程度来处理问题。一般来说,设置严重程度等级结构的最简单方法是根据商业价值来确定网站或应用的最关键部分。并且在团队中,并没有所谓的正确或错误的方式来判定严重性等级。要知道,重要的是了解团队如何划分具体的事件,并确保每个人都达成共识。
2)团队结构
清晰地认识团队结构并对告警进行有序分派,将提高整个团队的执行效率。为了更有序和有效的分派告警,我们应该注意几个问题:
告警处理需要涉及哪些人?
处理事件时,每个人的责任是什么?
告警要求在哪个环节通知哪些人?
3)通信结构
如果你不知道告警在团队结构内应该如何通信,那么建立通信结构将是创建严重性等级过程中最为困难的一环。
你可以这样考虑:
严重性等级结构:这个问题有多严重?
团队结构:这是谁的责任?
通信结构:如果问题发生,如何以及何时联系团队成员?
创建通信结构能将不同事件与团队中的不同角色联系起来,并根据时间紧迫度与错误频率添加更明确的操作。这样,可以确保通过恰当的渠道联系到合适的人员,且符合当前的情况。如果一个响应者不在线上,可通过告警升级机制确保团队中的其他成员得到通知。
根据团队结构,选择合适的通知渠道与阈值配置,意味着问题解决能更加高效,且不会牵涉到无关人员。
RIIL是国内领先的IT综合管理解决方案,通过IT资源综合监控、运维流程管理、3D数据中心管理三大模块帮助客户实现IT部门人财物的全面管理,提升IT服务质量以及运维管理绩效
华为设备有如下告警,期间并没有修改配置,请分析大概是什么原因
磁盘空间告警
告警信息:IGWB介质空间不足。
告警分析:主用IGWB在剩余磁盘空间小于15%的时候就会出磁盘空间告警,省公司要求话单保存时间:原始话单15天(D盘),格式转换后的话单15天(E盘),最终话单90天。
告警处理:删除部分格式转换后的话单(E:\backsave\Second\X3KM\),剪切部分最终话单到应急工作站(暂时),建议增加IGWB硬盘空间。
02备用IGWB磁盘空间不足
故障现象:备用IGWB磁盘空间不足
故障分析:备用IGWB是实现话单双备份的组成,并且如果备用IGWB磁盘剩余空间过小,主用IBWG异常的时候将无法倒换。
故障处理:清理备用IGWB磁盘空间。
03单板故障
告警信息:例如WSMU 板故障、单板CPU自检故障。
告警分析:无
告警处理:1.复位 2.拔插 3.更换
04电源故障
告警信息:-48V 电压过高告警。
告警分析:
告警产生原因:
· 动力进行例行放电测试,致电压临时过高
· 电压已恢复正常,但告警未自动消除,出现假告警
· 电压过高导致。根据指令DSP PDB可以查询到系统的电压正常范围是-42V~-57V,经常观察如果电压过高后,告警会在电压降到-54V的时候消除。如果告警长时间未自动恢复,可以用万用表测电压,看是否在正常范围内,如果电压已正常,可以手动把电压的门限值进行调高,使告警恢复后再把门限值调到正常范围内。
告警处理:
1.联系动力专业,确认是否在进行电池放电测试。如是,在测试完成后观察告警是否消除
2. 根据指令DSP PDB可以查询到系统的电压正常范围是-42V~-57V,经常观察如果电压过高后,告警会在电压降到-54V的时候消除。如果告警长时间未自动恢复,可以用万用表测电压,看是否在正常范围内,如果电压已正常,可以手动把电压的门限值进行调高,使告警恢复后再把门限值调到正常范围内。(现在配电框监控板默认的告警上限目前定义为57V,产品设置时,可在此基础上加3V,设置为60V比较合适。
MSOFTX3000可以通过软调修改电压告警上限。
软调命令如下:
STR SFTD: LT=MN, MN=2, PID="166", CTRL="36", PM0="1", PM1="60", PM2="42";
STR SFTD: LT=MN, MN=2, PID="166", CTRL="36", PM0="2", PM1="60", PM2="42";)
3.观察一段时间,如告警不会自动恢复就联系动力室处理。
05IGWB倒换
告警信息:iGWB双机倒换
告警分析:双机倒换通常是主用IGWB异常引起,可能原因:磁盘空间不足,重要目录被改动,网络故障,进程异常。
告警处理:清理磁盘空间,恢复被改动目录,检查处理网络,重启IGWB进程。
06传输故障
告警信息:E1端口故障或信号丢失。
告警分析:无
告警处理:自环检测,通过LOP E1对本端端口进行软件环回,如正常则表示单板端口硬件正常,再在各段DDF架端进行环回测试,逐段排除线缆原因,如是本端问题则重做线缆接口、换线或者换板,如是传输问题则转传输室处理。
07IGWB内存过载
告警信息:iGWB 内存过载。
告警分析:IGWB上运行的主要进程有om_proc.exe,ap_proc.exe,cfg_proc.exe,cls_proc.exe,knl_proc.exe。主要检查这些进程有没有大量占用内存空间。现在SZS09,SZS12的om_proc.exe进程占用大量内存不释放。
告警处理:暂时的处理办法是重启om_proc.exe,最终解决方法等待华为工程师补丁解决。
08IGWB备份失败
告警信息:iGWB备份连接失败。
告警分析:IGWB备份有两份,都是从主用IGWB以FTP方式备份到备用IGWB。一份保存在备机的E:\billforbs,保存1000个文件,通过smartback实现;一份保存在E:\ finabill_bak,保存时间为90天,通过igwb.ini文件的配置信息实现。
告警处理:检查smartback备份的路径和用户名密码是否正确;重启smartback软件;重启IGWB进程。
09网络故障
告警信息:BAM到主机连接中断、TCP链路故障。
告警分析:故障可能原因lanswitch异常,网口松动,网卡运行异常。
告警处理:拔插BAM主机网线,拔插lanswitch端口网线,禁用启用网卡,重启BAM。
10MTP、SCCP、M3UA故障
告警信息:M3UA路由传输禁止 路由不可用;MTP链路故障/MTP 链路定位失败;SCCP目的信令点禁止。
告警分析:故障可能原因传输故障引起,配置数据变更,链路负荷过高。
告警处理:检查传输,检查数据配置信息,检查是否为垃圾数据产生的告警。
11话单文件校验错误或话单文件丢失
告警信息:无
告警分析:可能是话单文件传送到计费中心出错,需要重传计费文件
告警处理:重传相应计费文件
12更换单板时程序加载不成功
告警信息:单板程序加载不成功
告警分析:可能原因:1.单板加载软开关未打开.2. 加载文件丢失
告警处理:1.通过MOD LSS修改单板加载软开关,设置为”程序不可用,数据不可用 ,数据可写, 程序可写”,加载完成修改为” 程序可用,数据可用,数据可写,程序不可写”
2.主机加载文件都存于BAM的D:/data 目录下,在此目录下查找所要加载的单板的程序文件,如未找到,说明文件因其他原因丢失,通过在其他同类型同版本局上能找到该单板的程序文件,将文件拷贝至该目录下,重新复位加载单板。
13硬盘故障
故障现象:故障磁盘灯亮红灯。
故障分析:华为软交换的硬盘都采用磁盘阵列方式对数据进行保护,硬盘支持热拔插,坏一块磁盘不影响系统运行,但是要尽快安排更换。
故障处理:更换硬盘。
14主机时间偏差
故障现象:检查主机系统时间发现网元的主机时间和北京时间相差较大。
故障分析:主机系统时间就是话单产生时间,华为认为偏差在正负5秒是正常的,超过这个范围需要校正。
故障处理:主机时间和BAM时间同步,更正其中一个就可以达到校正的目的。可以通过DSP TIME查看系统时间,通过指令SET TIME修改,或者直接改BAM的系统时间。
15CRC校验错误
故障现象:CRC校验错误告警。
故障分析:交换机数据与BAM机数据不一致,可能是由于工程引起的故障。
故障处理:通过SND SPD指令对校验出错的数据表进行强制发送,再次执行STR CRC进行CRC校验
以上,就是给大家整理的华为设备故障分析与排除方法,希望对你能有所启发。
关于如何分析告警和告警定义的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
如何分析告警的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于告警定义、如何分析告警的信息别忘了在本站进行查找喔。
暂时没有评论,来抢沙发吧~