AIOps 一场颠覆传统运维的盛筵
942
2022-10-16
某某银行IT运维管理的三点和四化
A银行以”服务至上、科技先行”的原则,大力推动科技部门和信息系统的建设,并注重强化运维体系建设,提升系统服务水平,保证关键应用的可用性。
在A银行科技部门强化运维体系建设的过程分中,A银行运维中心总经理提出了A银行IT运维服务管理的三点和四化指导原则,积极的推动A银行IT服务管理从被动的基础的IT运维工作到主动的高阶段的IT服务管理。
做好运维的三个关键点就是监管文件明确给以指引的: 运维流程管理、监控及一体化管理、应急管理
加强运维流程管理。进一步完善运维管理流程,健全运维管理制度和标准,重点加强事件管理、问题管理、变更管理、配置管理等关键管理流程和数据管理、机房管理等制度标准建设与执行力。加强管理流程整合,完善信息交互机制,形成闭环管理。强化事件分级制度,建立有效的事件升级及响应机制;加强事件后续分析与处理,不断优化管理流程;建立变更分类标准和变更分级审批流程,完善变更窗口管理制度,有效降低变更对生产运行的负面影响;制定配置参数移植、修改、备份、存储、更新、销毁等方面的管理制度,控制配置操作引发的风险。完善数据存储、使用、传输以及备份管理,进一步制定标准、规范,重点强化客户信息和经营分析数据等敏感数据访问控制、清理、销毁以及数据变形使用管理;进一步加强机房人员、供电、空调、防火管理。
加大集中监控及一体化管理力度。健全生产系统软硬件、网络及应用系统性能监测指标体系,优化监控策略;在实现对系统、设备、网络、基础环境等监控基础上,重点加强对核心应用系统和电子银行渠道监控;构建统一监控平台,统一管理和展现各种监控资源,实现集中告警方式,全面、及时掌握系统整体运行状态,快速定位故障、缩短处理时间;加大对总分行监控系统整合力度,提高总行对分行生产系统监管能力,进一步完善监控、响应、处理、报告、反馈和跟踪机制,实现全行范围基础设施和主要应用系统生产运行情况的全面监控,提高运行管理的全面控制能力。提高运维管理自动化水平,整合操作、维护、监控、响应、处理等管理流程,推进企业级总控中心(ECC)建设,促进运维管理一体化。
加强应急处置,提高协作能力。应急管理包括故障应急处理、高可用冗余建设、灾难恢复计划DRP或业务连续性计划BCP等几方面。
建立健全应对重大事件(突发事件)的预警、报告、决策、指挥、响应及退出等环节的应急处置机制。制定监测指标,实时监测业务运行状态,及时发现异常情况,及时预警;建立清晰的报告流程,明确报告路线;建立应急指挥、决策体系,统筹协调,高效决策,保证指挥流程畅通;制定应急处置响应流程,加强关键岗位人员配置。
建立应急预案一体化管理体系,建立涵盖总体预案、专项预案等预案框架;统筹预案管理,加强预案之间的衔接与配套;建立有效的预案维护机制,涵盖预案制定、评审、发布、变更和回收过程;制定预案编制规范,保证预案编制质量;强化预案后评价与持续改进机制,保证预案有效性。
根据风险战略与业务连续性目标,制定灾难备份体系建设策略与实施路线;以业务有效恢复为目标,逐步加强灾备体系建设;逐步加大数据、系统、基础设施等各类资源的保护范围以及恢复能力;逐步推进分支机构灾难备份建设,提高电子银行渠道灾难恢复能力,推进外联交易、支付、清算等重要渠道灾难备份建设。
探索灾难备份体系建设模式,加强架构设计,应用技术创新,加强数据中心集约化、标准化、流程化管理;深入研究数据中心“双活”、“多活”建设模式,提高数据中心之间相互备份、切换和接管能力。
同时银行和E8合作把运维绩效考核KPI及SLA又融合进ITIL运维流程管理系统,达到以KPI引导,转化被动的基础的IT运维工作到主动的高阶段的IT服务管理。
有了上面的三个关键点,做好运维的工作还需要“实现四化”:“合规化、透明化、标准化、系统化”。实现这个四化后,才会有更好的方法和更好的基础去做好运维工作
1、 合规化从监管以及管理高层与风险管理迫切压力需求的角度来说特别重要;内容是“做好信息安全及应急管理”,需要管理流程与安全及应急管理控制手段结合,如ITIL变更审批流程与堡垒机权限控制系统的结合。如ITIL事件升级到重大事件,再升级到灾难等升级流程及应急流程管理,包括灾备恢复演练的流程。基于以上事例郭总认为“应急管理的一部分也是可以利用一些流程化管理实现的”
2、系统化就是利用E8.IT运维管理平台,这种IT服务管理系统将各种IT管理流程、运维管理经验、IT服务管理思想系统化,并能不断优化,扩展。
3、 “透明化”就是运维的管理要对内对下透明,对上对外透明,则实现方法是”健全运维绩效考核评价机制以及SLA,服务级别协议与服务报告管理”这几点。
“透明化”这一点其中有一点奥妙。银行郭总指出,指标只是其中表象的一部分,关键是如何融合进工作流程中,让每个人都知道KPI,并实时了解掌握自己的当前绩效,真正发挥出的KPI导向作用:好用、易用、有用。做好从时效、质量、满意度等考虑的事件、问题、变更管理的基础工作,包括以SLA、系统可用率考核的重大事件或故障、系统容量、性能管理等工作,做好基础、接口与系统化,才能将 “透明化”有了实现的基础,能使得运维部门有压力和动力从IT运维 转向做IT服务管理,变被动运维向主动服务转变,然后从对内、对下的透明化,转向SLA做到对外、对上的透明化。
4 、”标准化”A银行以银监会的监管要求为基准并结合IT服务管理的最佳实践ITIL制定本行的IT服务管理标准。
A银行信息科技部运维中心根据IT服务管理的三点和四化指导原则,积极推进IT运维服务管理平台的建设并于2012月3月份上线了深圳非凡公司的E8.ITSM系统,把IT服务管理的理念和最佳实践融合进IT运维服务管理平台,真正的推动A银行的IT运维管理转变为IT服务管理。
E8.ITSM是一款比较成熟的本土IT服务管理平台,产品开发公司为深圳市非凡信息技术有限公司,它包括图形化的、具有中国特色的流程管理平台和IT运维管理平台两部分。其中IT运维管理平台包括了运维流程管理、监控及一体化管理平台、应急管理等功能。
产品方面:非凡公司秉承着做最适合中国企业应用的ITSM产品的理念,围绕ITIL规范,结合国内企业管理文化,构建以“客户为中心,流程为导向,生命周期管理”的IT运营模式。E8.ITSM据有ITIL核心最佳实践管理工具和工作流程,简洁易用;大集中的IT(应用、系统、硬件、网络)配置库和知识库; 超越ITIL的It综合管理流程;简单高效的E8.Net工作流二次开发平台。
经验方面:非凡公司具有多家大中型企业和银行的实施经验;本着对客户负责的原则,非凡公司实施方法采用顾问加产品的方法帮助企业建立IT运维管理体系、规范各岗位职责和流程,把IT运维管理的最佳实践和企业的实际相结合提升企业的IT服务管理水平。
发表评论
暂时没有评论,来抢沙发吧~