AIOps 平台的误解,挑战及建议, AIOps背景及所应具备技术能力分析(上)
1013
2022-10-06
陕重汽:大规模数量的数据库自动化运维之道
陕西重型汽车有限公司(以下简称“陕重汽”)成立于2002年,总部位于陕西省西安市,现有资产总额373亿元,从业人员1.6万人,科研力量雄厚,是重型商用车领域全球知名企业,已在阿尔及利亚、肯尼亚、马来西亚等国家实施了本地化生产,产品销往世界100多个国家和地区,出口量连续多年位居行业前茅。
近年来,陕重汽业务规模不断发展,IT系统也随着业务拓展持续建设,作为企业数字资产“核心”的数据库的数量和数据量迅猛增长,数据库总数已近百套,其中核心系统20余套,包括ERP、BOM、MES、SCM、PLM、VPM、DMS、海外DMS、WMS等。
对于一家拥有众多业务系统、海量数据的企业而言,业务系统运行的稳定不容有一丝的闪失。但传统的运维方式在资产管理、批量部署、自动巡检方面无有效手段,不能对数据库进行实时监控,此背景下,陕重汽目前亟需建设具有丰富功能的数据库自动化运维平台,实现数据库日常运维管理的标准化、自动化和智能化。
具体需求如下:
1、资产统一化管理陕重汽数据库总数近百套,需要对数据库资产及资源进行统一管理。将日常数据库监控管理纳入标准化,智能化管理阶段,便于隐患早发现早处理,为资产管理工作提供便利。2、自动化部署需要一种自动化安装部署数据库的手段,实现可快速响应系统开发、测试、生产阶段对数据库环境的需求,缩短数据库部署的时间。3、运行状态监控需从数据库的并发数、CPU使用率、内存使用量、IO延迟时间、网络延迟时间等维度,全面地分析数据库各资源使用情况,让运维人员可以提前感知运行风险,快速定位问题。4、标准化自动巡检需要对统一数据库的健康状态进行自动化巡检,获取数据库、主机在巡检时间段内所有指标的状态信息,以便快速了解数据库的一个整体运行状况和健康状态,提升巡检工作效率。
01解决方案
针对陕重汽对于业务数据库运行维护的需求,美创科技利用数据库运行安全管理平台(OSM)+运维云线上与线下结合的综合解决方案,高效率高安全地完成故障提前感知,问题智能定位以及故障智能解决,同时通过丰富的场景化运维工具,实现数据库的高效、智能运维,全面保障数据库的运行安全。
该方案将日常数据库监控管理纳入标准化,提高整体数据库高可用性;实现自动化的数据库安装部署快速交付,实现数据库自动化监控及深度健康巡检。理补齐“云化管理、运维前置、智能巡检、智能监控、资产管理、自动部署”等方面短板。
实现数据库的资源统一管理包括:数据库资产管理、数据库运行监控、智能巡检、日常运维管理、数据安全管理、数据库自动部署等功能;减少数据库维护人员的日常运维工作,简化故障处理的流程和复杂度,让数据库运维人员减少被动性救火工作,将数据库运维标准化、流程化、体系化。
部署图
通过数据库运行安全管理平台的数据库监控功能,实现对数据库资产的的聚合监控及单一精细化监控,确保业务系统的连续稳定可用。
通过全面巡检工具,全面、深度分析主机和数据库运行状态,有效定位系统隐患和资源瓶颈,一键操作即可完成数据库的全面而深度的检查工作。
从数据库的可用性、数据库资源、数据库安全、物理备份、主机资源数据库性能、数据库参数以及数据库软件等八个维度实现数据库的巡检分析工作,保证数据库检查的全面、深度和准确性。同时提供在线和导出PDF、word文档等多种方式查看巡检报告。利用巡检报告,运维人员可以全面直观地掌握数据库的运行状况的异常以及相关性能好坏。
通过数据库运行安全管理平台提供的性能分析工具从数据库的并发数、CPU使用率、内存使用量、IO延迟时间、网络延迟时间5个维度,全面地分析数据库各资源使用情况,并给出数据库性能是否正常结论,让运维人员以最快时间了解到自己关注的数据库对象性能是否良好。
通过数据库运行安全管理平台提供的资产分析工具,自动分析统计平台内所有数据库的不同版本、单机、集群等的数量,并以图形化展示,让运维人员直观快速地掌握数据库资产的分类统计,为资产管理工作提供便利。
方案亮点:
1、实现了对数据库运行状态的安全管理,融合AI技术和大数据模型,智能监控、预测和趋势分析,功能覆盖数据库日常运维场景。2、实时监控数据库运行状态,提前感知运行风险,智能定位问题,并利用工具箱快速解决故障,实现运维闭环。
02客户收益
➢ 数据库资产自动发现、统一管理:陕重汽通过数据库运行安全管理平台的建立,实现了对数据库资产的自动发现统一管理;➢ 提升运维人员工作效率:通过数据库运行安全管理平台的建立,极大的提高了陕重汽一线数据库运维人员的运维效率,数据库交付由之前的1-2个工作日提高到现在的30分钟,实现了对整个数据库服务器软硬件的“集中管理、统一运维”,提高了运维效率,保障了业务系统安全稳定运行,实现了数据库统一全生命周期管理;➢ 提升系统健壮性:通过数据库运行安全管理平台的建立,实现了标准化的安装交付,规避数据库安装部署阶段不规范及参数配置问题而引起上线后的运行风险,增加系统健壮性;➢ 可视化大屏监控:通过数据库运行安全管理平台聚合全景大屏和单个资产聚焦大屏,对所有数据库对象实现聚合监控和单一对象的详细监控,直观清晰地了解到各数据库对象及其对应的业务系统整体运行情况。
发表评论
暂时没有评论,来抢沙发吧~