睿象云智能告警平台的分派策略
837
2023-02-07
本文目录一览:
智能运维是一种全新的数字化运维能力,且是企业数字化转型的必备能力。智能运维的本质是提升运维数据的认知能力,它在提升运维数据治理能力、优化企业业务数字化风险、降低运维人力成本和提升运维在业务侧的影响力方面都有本质的提升。
智能运维,又称AIOps(Artficial Intelligence for Operations),是一种将大数据、人工智能或机器学习技术赋能传统IT运维管理的平台(技术)。
比如以我们公司的夏洛克AIOps智慧运营平台为例。它能以全局运营视角解读IT运维,在AI算法平台的支撑下实现包括精准告警、异常检测、根因定位和容量分析等场景,助力企业数字化业务高效、稳定和顺畅运行。
运维数据治理。通过高性能实时处理的数据平台广泛采集、处理和分析数字化业务运行过程中的多样化运维数据,包括告警、指标、日志、配置以及运维工单等类别,不仅提升了运维大数据的治理能力,优化了数据质量,而且为进一步激活运维数据的价值打下了良好基础;
业务数字化风险。使运维人员不仅提升了历史运维数据的分析能力并且能够对实时数据进行异常检测和问题预判,有效降低数字化业务的运行风险,提升可用性、稳定性;
运维人力成本。使真正意义上的跨域根因定位成为可能,降低对专业运维人员经验技能的依赖,迅速缩短故障排查时间并有效降低人力成本;
业务侧影响力。以业务视角利用多元化数据提高运营分析和决策能力,比如端到端的分析业务交易状态,提供给业务、客服部门及时反馈和决策支持依据,充分增强业务影响力;
智能运维发展正如火如荼,Gartner预见其为下一代运维,认为到2022年将有近50%的企业用户部署智能运维。虽然目前不少企业已经在积极投入建设,也还有一些企业处在迷茫阶段,尽早布局才能在数字化时代不会被淘汰。
擎创科技为券商、银行、政府机构等都做过智能运维的成功落地案例。比如最近为某中型银行客户解决日常运维中存在的告警风暴问题。
A行主要运维痛点是告警风暴频发,系统日增告警量达5000多条。在这种情况下运维人员根本无法及时处理告警事件,系统问题更无法及时得到修复,势必会引发用户频繁投诉。A行迫切需要引入智能化的运维方案来解决横亘已久的问题,破除告警风暴难题,提高告警处理能力。
在实地了解到客户的现状和痛点后,我方咨询专家给出的方案是通过实施告警信息丰富、告警智能压缩、告警智能关联、精准推荐告警优先级等功能,帮助运维人员逐步实现少做事、做重要的事、更高效地做事等三级目标。这些核心功能,最终要依赖擎创的智能运维产品——告警辨析中心来实现。
这些功能的实现逻辑如下:
1、告警信息丰富:原始告警信息关联CMDB配置信息,做如下内容丰富;
2、告警智能压缩:利用智能算法将相同或者相似的告警进行合并压缩;
3、告警智能关联:利用智能算法将可能是同一种根因产生的告警关联在一起,方便用户迅速查找问题症结;
4、精准推荐告警优先级:智能算法推荐告警优先级,使告警级别标注更精准。
整个项目历时3个月,投产后压缩掉了82%的无效告警,并大大提高了运维人员的排障效率,客户投诉量也降低了50%。
此外,这个项目也了却了客户心中的难题。A银行使用的监控平台建设于2009年,虽然采用的是某知名国际软件厂商的产品,但是产品的架构、功能和性能已经远远无法满足当前业务需要。客户3年前就表示希望更换监控平台,但由于涉及部门过多,新监控平台建设工作迟迟无法推进。
此次智能运维项目中发现客户的指标数据采样频率和告警频率都是5分钟一次,已经无法反应系统的真实状态,且会遗漏大量有价值的数据和信息。经过项目组向客户多次汇报和反复沟通,终于推动客户下定决心升级监控平台,目前该项目已经进入UAT测试阶段。
“擎创科技将AIOps领域的行业场景做深做透,让客户可以产生真实的收入,这就是客户持续订阅的缘由。”
未来的运维势必是由运维走向运营,擎创科技将会继续提升运维数据的认知能力,打造智能运维产品中最实用的工具,构建实用工具中最智能的产品,帮助企业走上运维智能化道路。
发表评论
暂时没有评论,来抢沙发吧~