睿象云智能告警平台的分派策略
1479
2023-01-09
本文目录一览:
作为一种将算法集成到工具里的新型运维方式,AIOps 可以帮助企业最大程度地简化运维工作,把 IT 从耗时又容易出错的流程中解放出来。
有了 AIOps,当 IT 出现故障隐患,运维人员不需要再等待系统发出故障告警,通过内置的机器学习算法以及大数据技术,就能自动发现系统的各类异常,从而实现从异常入手判断故障发生的可能性、严重性和影响,依赖机器对数据的分析结果,判断最佳的应对方案。
由此可以看出,基于 AIOps 的管理方法对监控式运维的底层技术实现了颠覆。传统 IT 运维管理工具更为关注突发事件(即告警)、配置和性能,而 AIOps 则更加关注问题、分析和预测,二者可谓互相补充相得益彰。
对 IT 运维人员而言,当一条告警被确认的时候,不但意味着你第一时间发现了业务故障,更意味着在故障发生的这一刻,业务已经受到了影响。而随着 AIOps 的出现,IT 部门可以通过机器学习和算法技术,事先发现 IT 系统的运行异常,提前进行故障的防范甚至规避措施,确保业务故障不出现或者少出现,这些对于 IT 和业务部门来说意义重大。
确实听说有人这样担心和误会。
实际上,AIOps平台出现并蓬勃发展的主要动力,是因为企业的IT系统数据量越来越大,结构也越来越复杂,靠单纯的运维工程师的经验和人工判断,很难应对层出不穷的运维问题。传统的运维监控软件,可以展示运维数据,却无法给出分析和处置建议,无法跟上排障的要求。
随着AI人工智能的应用,可以把运维数据做更好的分析,或提供疑似根因的定位、或提供异常的预警,使用AIOps系统,MTTR(平均故障排除时间)能从数小时缩短到数分钟,排障的经验也可以作为既有知识保存供他人参考。
所以,有AIOps之后,原先一个运维工程师管理n个应用和设备;就算是设备增加到100n,可能靠一个工程师也能管得过来,而不用等比例增加到100个运维工程师。这就是技术进步的意义。
发表评论
暂时没有评论,来抢沙发吧~