解决运维事件(运维事件处理流程)

来源网友投稿 622 2023-02-20

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈解决运维事件,以及运维事件处理流程对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享解决运维事件的知识,其中也会对运维事件处理流程进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

出现运维事故后,你会怎么办?

有一次和朋友聊天,他说他们有一次部署出事了,影响还挺大,那次事故后,他们公司对于部署流程增加了更多的审批。

当朋友说完前半句时,我已经猜到下半句,那是很多公司或个人会做出的反应。至于为什么会做出这样的反应,我也不知道。

我问:为什么那次部署会“出事”?

他说:当时部署的人忘记了那台机器上有一条 Iptable 规则,导致了事故。

我就在想,如果有人审批,那次事故就不会发生吗?审批的人就知道那台机器上有一条规则导致事故的发生?然后驳回这次部署吗?连一线的开发和运维都忘记了的 Iptable 规则,“高高在上的审批领导”就更不知道了。

题外话:增加审批流程并不能避免这次事故,只不过当出现事故时,可以更好的定责。然而我又好奇了,这种“审批”是为了解决问题,解决什么问题?,还是为了逃避责任?谁逃避了责任?谁又有责任?

对于这类问题,我心里已经有数了,但想知道这位朋友的回答,就接着问:那么怎么杜绝这类问题呢?

这位朋友说的做法,我之前待的一个团队的做法也差不多:会有一个页面专门记录下每次部署的步骤,步骤由开发人员写,然后由运维人员执行。只是我不知道他们会不会回顾之前所有针对这台机器的部署步骤。

这个团队里有某某大型互联网公司来的架构师和某财务软件公司来的运维,所以,我不负责地推测,我们这个行业很多公司对于配置的管理还没有达到足够的重视,也没有正确的看待。

我笑了,接着问朋友:那我要知道当前机器的“最终状态”,是不是要找出所有部署记录,还要过滤出对这次部署有影响的每一个细节?比如那条 Iptable 规则。

接下来的对话细节已经记不清,也不重要了。重要的是找出针对这类运维事故根本原因及解决办法。

我个人认为这类问题的根本原因在于:

以上只是我个人认为的,不一定正确,欢迎各位读者讨论。

那如何杜绝这类问题呢?

这两个原因可以看作一个,也可以看作两个。但方法都是一样的:

脚本式的配置管理是这样的:

而声明式的配置管理是这样的:

声明式的配置里写的是当前环境的“状态”,语意上,声明式的配置不论你执行多少次,你得到最终的“状态”就是你所声明的,这也就实现了《持续交付》里说的:

这样,你就不用在第1000次部署时,根据前999次部署脚本找出对这一次部署有影响的细节了。

具体实践时,我发现 Ansible 就能很好的做到这点。

将这些配置版本化的好处,就不需要重点说明了。

具体一点的说就是所有环境都使用相同的声明配置,具体到不同环境时,使用变量替换。这样就可以保证所有环境的一致性了。

具体实践方法,还需要根据所在团队调整。你也可以通过本文附录里链接,参考其他人是如何实践的。

关于配置管理

多环境配置管理

如何做好运维工作

一、运维方法
技术层面:
随着信息技术的发展以及企业业务的不断扩张,运维人员所面临的系统架构越发的复杂,关联度越发紧密。对运维人员的要求也会越来越高,打造个个都是高手,对业务系统了如指掌。
1、需要运维人员快速转变观念,学会通过主动运维的方式应对复杂多变的 IT 问题,保证业务系统的稳定。
2、更多的站在客户的层面思考问题,解决问题。
3、使用集成的运维平台,在业务系统没有感知的情况下实现了业务的变更、升级。
运维文档层面:
一个好的系统或者项目,必定有很多的文档进行支撑。
1、系统建设前期,一定要做好系统的需求文档、设计文档、实施文档。在系统建设中要依据前期的文档进行实施和设计,并生成系统相关的问题总结文档和更新实施文档。
2、系统建设完成后,要基于系统的业务能力和使用对象编写操作手册和运维手册等。
3、业务在交付一定要文档同行。否则系统上线后问题层出不穷,导致运维人员手忙脚乱,不知道从何下手处理,往往会让运维人员绕很多的弯路,错失良机。
4、文档归类保存:文档也分好多种,比如配置文档、实施文档、设计文档、系统规范性文档、项目管理文档等等。做到一式两份,运维部门一份,档案室一份。
5、要求运维人员一定要具备相应的文档编写能力和整理能力。同时一定要严格按照之前的文档进行实施,有问题要学会及时沟通,并把修正后的问题更新到文档中。
6、建立知识库:把运维过程中出现的问题及解决办法和思路,另外最重要的是运维事件的总结,记录在案。
运维流程层面:
1、建立运维流程。要求运维人员一定要基于一个既定的规则来干活。
2、通过流程确定事件责任。业务人员专注点与运维人员的专注点不同,责任也不同。
3、使用ITIL 了(即 IT 基础架构库(Information Technology Infrastructure Library,ITIL,信息技术基础架构库)。ITIL 为企业的 IT 服务管理实践提供了一个客观、严谨、可量化的标准和规范。
二、运维人员技术
正所谓工欲善其事,必先利其器。很多的企业都在强化以用户服务为中心,专业技术为驱动的理念,可见拥有过硬的技术是多么的重要。
1、运维人员必须掌握的技能:
运维对技术的要求是很高的,首先运维人员要对自己所负责的系统有较深的理解,全程参与系统的设计、实施与运维。一定要具备相关领域的技术积累,有较丰富的设计或者排错经验
同时运维人员具备以下软实力:如沟通能力、合作心态和文档编写能力。
2、运维人员一定要对现在的主流技术有一定的涉猎(云计算、边缘计算、大数据、AIOps、人工智能、深度学习等等),要与时俱进。
3、经常参与线上或者线下的相关讨论和交流学习。了解目前流行的 IT 技术,并学习它,思考如何将其用于企业的业务中,为企业创造价值,提升运维效率。所以具备主流技术的捕捉能力,也是运维人员的必修课之一。
三、运维现场监控层面
监控的目的就是防患于未然。通过监控,运维人员能够及时了解到企业网络的运行状态。
一旦出现安全隐患,可以及时预警或者是以其他方式通知运维人员,让运维监控人员有时间处理和解决,避免影响业务系统的正常使用,将一切问题的根源扼杀在摇篮当中。现在的监控工具可以在监控指标触发时,自动修复一些故障,但是它最多帮你做些简单的自动化任务,更高阶的自动化任务需要运维人员具备较深的脚本和系统知识。

IT运维管理当前面临了哪些问题?

现在的企业几乎都是互联网办公解决运维事件,网络一旦出现问题解决运维事件,会对公司业务造成重大损失。而很多公司主业也不是IT解决运维事件,对网络问题不大懂解决运维事件,对于公司的网络问题往往都是请一个运维工程师处理。这些工程师有相应的专业能力,但管理人员的“不懂行”却让运维工作存在很多问题,主要有这五点:
1、缺乏有效的知识积累和共享,造成操作维护效率低下,类似的故障和问题仍然在不断发生,不断解决着,同时一旦某些掌握关键信息和技能的人发生意外状况(如生病,离职等),整个日常维护可能面临严峻的考验。
2、工程师的维护职责不是很清楚,每个人都大概知道自己该做什么,但是某个具体事情到底该谁负责,却没有明细定位。
3、IT网络运维人员大多没有养成记录习惯,每个月汇总报告时,对自己的工作量、所维护系统的整体情况还是一头雾水。而且纸质的故障处理报告信息要素不全,统计和查询都是头痛的问题。
4、运维人员几乎很少能准时下班,处理突发技术故障的事情也时有发生。运维人员往往像“救火队员”一样去处理故障。 在“救火式”的IT管理维护模式下,很难有效地进行服务管理,无法保证IT服务的有效性和一致性,IT管理往往处于无序状态。
5、对于运维工程师的工作绩效缺乏客观考核依据。他们到底做解决运维事件了哪些事情?哪些事情还没有做?工作完成的时效性怎么样?解决问题的质量怎么样?这些问题,只能凭印象得出一个个模糊的答案。
如何解决以上问题?
如何解决以上提到的问题是目前许多企业用户需要解决的问题,但首要关注的问题应是如何建立专业化分工的IT运维体系。
1、细化用户角色,力求提高运维效率
运维人力分工管理包含人员、岗位、角色等信息,如果这些信息没有统一规划,就无法进行统一配置。网络管理中的角色是根据ITIL标准进行划分的,是把IT运维各种事情(包括人员、资源、突发事故)分成不同级别和不同运维操作,以便有效的配置运维人力资源。因此,对于企业而言,IT运维的专业化分工本质上是对IT运维人力资源配置的优化。例如,明确运维事件分级处理流程,明确运维人员的职责、权限、义务和绩效考核标准。事实上许多实践也证明,明确每种运维事件的专业化分工处理流程,可以大大减少IT运维操作的随意性和混乱性,并能大大提高运维中的人力资源效率。
2、设立IT运维服务台,规范IT流程
在网管软件中,一般提供自助服务和运维服务台,自助服务台的作用是,给用户报故障,评价IT人员解决问题是否负责等。运维服务台是为了确定运维等级和引入优先处理原则。运维服务台主要承担:运行值班、故障监控、接受请求、工单派发及问题解决过程中的监测等工作内容。服务台就像是传统产业生产车间的调度分配员,它会不断的根据事件的等级进行匹配分工和调度。例如发生任何一个突发运维事件时,服务台会先检查并进行分类流转处理。运维人员可分为一线普通维护、二线技术专家和三线厂商专家。一线人员作为第一级问题处理人员,主要解决常规的运维问题;在一线人员不能解决的情况下,二线技术专家将迅速介入问题解决过程;三线技术专家来自产品供应商,由二线技术专家申请三线厂商专家的介入,使问题解决时间能够大大缩短。
3、FAQ和知识库,最大限度节省人力成本
提供FAQ和知识库两种方式,知识库是指对网络运维中的典型故障事件和常见问题解答的自助式处理流程。当出现故障时,用户先在自助式知识库寻找解决方法。如果问题没有得到解决,则用户利用服务台申请维护,用户申请将会移交给相应的负责人,负责人第一时间建立服务档案并一直实时监控,直到问题得到圆满的解决。因此,自助式知识库能帮助运维人员节省大量的时间,从而节省人力成本支出。
最后,专业的事情要用专门的人员来做,还要配合专业的方法。运维工程师是以技术为主的群体,他们往往关注于IT问题本身,主要通过提升自身技术实力来解决问题,不太关注技术之外的事情。这种情况下不可避免的会出现一些问题,这就需要管理人员来解决了。

怎么提高运维人员的工作效率?

要看你从那个角度来看了解决运维事件,需要题主更多一点背景资料。
如果你是想解决运维人员疲于应付解决运维事件的情况解决运维事件,那就对运维事件进行等级划分解决运维事件,运维人员划分一线,二线, 导向是一线运维人员处理60%-80%的事件,二线集中精力在重大事件的处理以及规避事件出现上。运维这项工作,除非不断有新业务开拓,规范了,上了轨道,人员的需求会下降的。
如果你是想解决运维人员太过空闲的情况,那首先审视一下现在有人力资源组成是否合理,设立的目标是否宽松。运维的工作的确比较机动,所以按常规坐班的方式来管理不太合适,还是以目标为考核指标,多设立可量化的指标,比如系统可用率,年度应急演练次数等。
还是看题主的具体情况,是什么样的因素触发你想要提升工作效率这个想法 关于解决运维事件和运维事件处理流程的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 解决运维事件的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于运维事件处理流程、解决运维事件的信息别忘了在本站进行查找喔。
上一篇:关于it运维工程师待遇怎么样的信息
下一篇:监控运维紧急处理事件(运维项目突发事件应急处理)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~