睿象云智能告警平台的分派策略
741
2023-02-11
本文目录一览:
智能运维是一种全新的数字化运维能力,也将是数字化转型的必备能力。智能运维相对于传统运维模式而言,能够在四个方面有本质的效能提升:
运维数据治理。通过高性能实时处理的数据平台广泛采集、处理和分析数字化业务运行过程中的多样化运维数据,包括告警、指标、日志、配置以及运维工单等类别,不仅提升了运维大数据的治理能力,优化了数据质量,而且为进一步激活运维数据的价值打下了良好基础;
业务数字化风险。使运维人员不仅提升了历史运维数据的分析能力并且能够对实时数据进行异常检测和问题预判,有效降低数字化业务的运行风险,提升可用性、稳定性;
运维人力成本。使真正意义上的跨域根因定位成为可能,降低对专业运维人员经验技能的依赖,迅速缩短故障排查时间并有效降低人力成本;
业务侧影响力。以业务视角利用多元化数据提高运营分析和决策能力,比如端到端的分析业务交易状态,提供给业务、客服部门及时反馈和决策支持依据,充分增强业务影响力;
由此可以看出,基于 AIOps 的管理方法对监控式运维的底层技术实现了颠覆。传统 IT 运维管理工具更为关注突发事件(即告警)、配置和性能,而 AIOps 则更加关注问题、分析和预测,二者可谓互相补充相得益彰。
AIOps如何落地aiops智能运维的思路,还是以具体案例来说比较容易理解。就拿擎创为北京农村商业银行做的项目来说。
项目背景:
近年来数字化转型的步伐愈发变快aiops智能运维的思路,随着北京农村商业银行业务规模的扩增以及业务形式的电子化加速,贯穿业务、市场、系统、应用、数据库、中间件、网络、安全等多方面的数据量迅速叠加堆积。然而,这些对于市场而言极具价值的巨量化数据并不集中,它们分散在银行的各中心服务器或设备之中,这使得银行的数据运维工作量越来越大,尤其是在日志的统一管理、监控、信息挖掘等方面极为明显。因此,北京农村商业银行对于信息技术提升和数据管理加强的需求日益加深。
根据监管部门对银行数据治理的相关指引以及中国银监会《商业银行信息科技风险管理指引》(银监发〔2009〕19号)中针对日志文件完整性、存留周期的相关要求,北京农村商业银行最终选择擎创科技助力其完善智能运维建设,保障其业务的平稳高效运行。
解决方案:
根据北京农村商业银行的需求以及现状,擎创科技通过以下手段为其建设运维大数据平台。
通过现分布式高可用,支持横向扩展,随着业务需要随时扩容平台节点aiops智能运维的思路;
通过高效数据采集手段,实现对现有IT环境的实时数据采集,打破各个孤立运维工具中的数据孤岛;
对所有运维数据进行集中高效的存储、查询及可视化展示;
支持结构化、非结构化的数据采集支撑;
内置AI智能日志分析引擎,实现日志异常检测、日志异常定位并辅助故障定位。
平台架构图如下:
创新点:
北京农村商业银行在运维大数据平台项目的建设中,采用流批一体的处理技术、流式窗口聚合方式,实现aiops智能运维的思路了实时采集、秒级处理、秒级查询,为运维人员提供高效的数据查询手段,为应用人员实现交易数据与日志的深度结合;
采用智能算法判断、故障根因定位,为运维人员提供便捷数据分析工具。充分挖掘aiops智能运维的思路了北京农村商业银行的运维数据价值、提升了运维管理水平、提高了运维效率。
建设成效:
建设日志治理平台和大数据平台,实现日志数据统一集中管理、KPI动态异常检测、日志智能聚类等功能。
日志治理+大数据平台(算法),当前日增日志6TB,设计容量10TB,热数据保存30天、冷数据保存3个月,大数据平台日志存档一年、指标类数据两年;
最高峰每秒处理日志500万条日志,其中最高按单笔业务交易日志行数达3000+行,经采集、数据提取、数据合并、数据丰富等数据处理后延时小于1s。
总结:
随着运维大数据平台的建设完成,北京农村商业银行实现了对各类运维日志数据的统一管理,能够对日志进行集中查询、聚类分析、快速分析、精细化分析等操作,结合监控告警的智能化处理,可以做到事前智能预警、事后快速定位故障并分析,进一步提升了银行数据中心的运维管理水平。
AIOps(Artficial Intelligence for Operations),是一种将大数据、人工智能或机器学习技术赋能传统IT运维管理的平台(技术)。AIOps智能运维可以将全栈式的运维数据进行集中化管理,不同数据领域也可以进行智能算法根因定位。其次它可以从业务场景进行跟踪,了解交易路径,对于数据进行智能分析与预测。所以智能运维是一种全新的数字化运维能力,可以配合企业的数字化转型,保障企业的业务应用能够安全稳定且高效的运行。
AIOps智能运维相对于传统运维模式而言,能够给企业在四个方面有本质的效能提升:
运维数据治理。通过高性能实时处理的数据平台广泛采集、处理和分析数字化业务运行过程中的多样化运维数据,包括告警、指标、日志、配置以及运维工单等类别,不仅提升了运维大数据的治理能力,优化了数据质量,而且为进一步激活运维数据的价值打下了良好基础;
业务数字化风险。使运维人员不仅提升了历史运维数据的分析能力并且能够对实时数据进行异常检测和问题预判,有效降低数字化业务的运行风险,提升可用性、稳定性;
运维人力成本。使真正意义上的跨域根因定位成为可能,降低对专业运维人员经验技能的依赖,迅速缩短故障排查时间并有效降低人力成本;
业务侧影响力。以业务视角利用多元化数据提高运营分析和决策能力,比如端到端的分析业务交易状态,提供给业务、客服部门及时反馈和决策支持依据,充分增强业务影响力;
所以,智能运维是一种全新的数字化运维能力,也将是数字化转型的必备能力。
发表评论
评论列表