AIOps 一场颠覆传统运维的盛筵
648
2023-03-27
王甲佳:当例外有了预案 运维就掌握了主动
在效率和规范方面永远存在着难以调和的矛盾,处理这个矛盾的水平决定着企业进步的水平,也直接影响企业进步的速度。
从案例来看,唐军应当是一个优秀的运维管理者。一方面对可能的灾难性结果有充分的预见,另外一个方面在现场处置上非常有套路。当然作为一个“社会服务部门”,他的做法并没有被纳入正常的程序中,这是一个遗憾。
他如何既保证整个系统的安全运行,又能保证合法合理的行使自己的权力,承担运维的责任?我想至少可以从三个方面来进行探讨。
实现大集中后的管理与监测
就在五月份,我参加了中国计算机用户协会在温州举办的一次机房技术研讨会,介绍了很多实际的有效的做法。在这个方面已经有比较成熟的做法。当然在大部分企事业单位,机房的信息化工作还是比较落后的,如何集中监测信息系统的安全性与资源冗余?必须用软件来进行管理。
飓风公司的服务器已满负荷运转,唐军是通过关闭服务器,然后再重新启动来获得正常运行秩序的。在他们的监测系统里面能不能加上更细致的管理策略?比如,当服务器的资源冗余低于30%的时候,主动控制业务请求和数据输出流量?这需要对集团的不同机构对系统的要求有更细致的理解,再确定更合适的应对策略,在具体的应用系统中进行控制。比如按时段来进行异地数据与大集中数据的交换。在业务最繁忙的阶段,自动启用冗余资源。
当然在这里有很多策略需要确定,它的到位不仅仅局限于运维部门,还在业务软件的设计者、维护者以及业务部门,甚至到整个公司的经营方式,这些需要系统性地考虑。只有这样才能保证有效的可持续的投入产出比。这个方面做到位了,估计应该能解决95%的问题。
设计不同的应对预案
从逻辑上来说,我们是不可能将什么情况都预测到,但是即便是应急,也是可以有预案的,尤其对于可能造成灾难性的后果的现象与问题,需要非常果断而且有效的操作方案。唐军在这次事故中的处理方式是一个经验的判断,不是基于一个预案。成功了是值得庆幸的,更复杂的情况没有发生。
在温州,许多单位都有应对台风的预案,如何在不可避免的灾害性天气里把损失减少到最低限度?生产生活不受到太大的影响,如果每次都依靠运动的方式来做,则是非常困难的,劳民伤财。有了预案之后,整个企业会“自动”地执行一个又一个程序,即便在没有任何电子通讯的情况下,也能应对自如。
在运维管理中,我们强调预案的重要性,就是为了解决5%的“万一”。
将“非法”行动合法化
企业经营的秩序决定了效率和产出。重大问题做层层上报再层层决策是慎重的,也是正确的!但是在系统安全这个问题上,就不是那么简单了。那样会延误最合适的处理时机。现场问题必须做现场处理,那么我们就要授予现场人员的处理权限。
了解日本丰田生产方式的朋友都知道,生产线工人在发现严重质量问题的时候,有停掉整条生产线的权力。这个生产方式认为出现严重的质量问题,工序就不应当再持续,再持续就是对企业的犯罪,赋予现场员工的这个权限,是对企业负责,当然遇到什么样的情况才会允许这样做,自然是有规定的。也是前面说到的预案里面的内容。
飓风公司的管理者要认识到,任何制度都不是一成不变的,必须与时俱进地将企业的发展需要体现在制度中,制度只有不停地演化,才会越来越成熟,越来越年轻,否则将成为企业发展的障碍,增加企业运营的成本。关于运维的制度也一样,必须依据实际,将运维主管的现场处置权限给予明确,当然,现在明确了不等于永远拥有,一旦管理条件发生了变化,这个权限的范围也应该变化,另外向上报告的通道也要统一和高效。
制度化是保持良好秩序的重要手段,但是许多时候它又会反制工作的进程。在效率和规范方面永远存在着难以调和的矛盾,处理这个矛盾的水平决定着企业进步的水平,也直接影响企业进步的速度。
以上三个方面都是唐军必须思考和尽快落实的。只有把管理活动从经验上升到秩序,我们才会真切地感受到工作的主动,才能实现更合适的投入产出比。
发表评论
暂时没有评论,来抢沙发吧~