运维紧急事件对外处理(运维紧急事件对外处理措施)

来源网友投稿 840 2023-02-14

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈运维紧急事件对外处理,以及运维紧急事件对外处理措施对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享运维紧急事件对外处理的知识,其中也会对运维紧急事件对外处理措施进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

有效运维的 on-call 机制

[编者按]本文作者为陈伯龙运维紧急事件对外处理,云告警平台 OneAlert 创始人运维紧急事件对外处理,著《云计算与 OpenStack 》,在IT运营管理、云计算方面从业10多年。

互联网技术的发展,离不开运维支撑工作,没有零bug的程序,没有不出问题的系统,问题故障不可怕,可怕的是没能有序的处理:

如何有效处理紧急事件驱动的工作,成为(特别是运维主管)运维工作的关键。我接触了大量的各类型公司运维,从初创、中小、大型公司,总结和分享一些大多公司通用的on-call机制,帮助有序的处理紧急事件:

基本上都是围绕人、流程、工具三方面进行,参考了ITIL的管理思路,大家感兴趣也可以参考下,特别是其中的ITIL V3的运营管理。

大多公司都用了zabbix和nagios、open-falcon等监控工具,对硬件、网络、应用进行监控。可能会存在监控分散问题:

告警集中化,就是所有的生产监控发现的告警事件集中到一起,这样我们盯着一个平台就够了,同样也容易分析问题,是不是相同和类似原因。

如果监控工具单一,集中化不是最必要的,如何有序处理才是最核心的。特别运维团队是3-5人到数十/百人,就很有必要梳理下支撑流程和响应机制了。

如果管理比较细一些,还会进行业务拆分,形成一个矩阵,例如一线、二线根据不同专业,如负责网络和负责不同应用的团队。
另外还要考虑告警严重的程度级别,进行差异化处理,要求严格的同学一般会建立响应级别[1-3]或[1-5]:

那么问题来了,规划和设计挺好,如何落地呢?目前看zabbix、nagios、open-falcon等监控工具更多是聚焦如何发现问题,支撑流程属于处理问题的范畴,或者是说管理范畴,这一点目前市面上合适工具较少:

接触过一个互联网金融公司,设计了非常规范化的流程和P0-P5级别应急处理方案,涉及了网络、云平台、近50个应用研发团队。

分派升级

排班管理

再好的流程和设计,当时没有及时收到通知和处理,那么就会很郁闷了,最后一公里问题解决方式:

还支持几点:不同级别、不同时间段的设置,例如晚上严重的电话通知,白天工作时间就不用了。
这里面还存在一个问题,当告警规模大了后,特别是告警风暴的话,很容易撑爆邮箱或者是手机短信了,所以接下来就聊下告警风暴规避的问题。

这个问题比较大,基本上有些监控工具做了一部分,目前看也是一个业界难题,简单来说:

我们目前做了一些尝试分享下:

机器学习告警合并

如果告警量很大,告警后续处理和跟踪往往会依赖于外部团队(部门外或公司外)。但是监控告警粒度太细了,可能很多告警都是一个事情。如上面的告警风暴中,由于应用程序故障,引发引发了大量的异常,之后又产生连锁反应,其实就是一个事情,只需要处理一个事情就行。
一般来说一线人员会采用邮件或者电话方式,直接通知对应负责人,但是这个就很难追踪和事后分析,所以一套事件管理机制。
ITIL规范的事件Incident流程很有参考价值,感兴趣同学参考下。事件工单需要:

事件单

影响范围和紧急程度的交叉矩阵影响到优先级

On-Call机制建立后,通过告警和事件数据分析、建立起以数据指标驱动的团队文化,有机会和大家分享。

OneA lert 是 OneAPM 旗下产品,是国内第一个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想阅读更多技术文章,请访问 OneAPM 官方技术博客 。

本文转自 OneAPM 官方博客

运行途中发生治安事件的应急处理程序是什么?

一般情况下运维紧急事件对外处理,发生紧急治安事件时运维紧急事件对外处理,应遵循以下程序运维紧急事件对外处理
1、迅速报警。
2、保护好现场并及时疏散群众
3、控制局面
4、做好人员防毒和伤亡运维紧急事件对外处理的抢救工作 5、尽快恢复正常秩序
6、配合有关部门妥善处理
7、认真查明原因
8、总结经验教训

出现运维事故后,你会怎么办?

有一次和朋友聊天,他说他们有一次部署出事了,影响还挺大,那次事故后,他们公司对于部署流程增加了更多运维紧急事件对外处理的审批。

当朋友说完前半句时,我已经猜到下半句,那是很多公司或个人会做出运维紧急事件对外处理的反应。至于为什么会做出这样的反应,我也不知道。

我问:为什么那次部署会“出事”运维紧急事件对外处理

他说:当时部署的人忘记了那台机器上有一条 Iptable 规则,导致了事故。

我就在想,如果有人审批,那次事故就不会发生吗?审批的人就知道那台机器上有一条规则导致事故的发生?然后驳回这次部署吗?连一线的开发和运维都忘记了的 Iptable 规则,“高高在上的审批领导”就更不知道了。

题外话:增加审批流程并不能避免这次事故,只不过当出现事故时,可以更好的定责。然而我又好奇了,这种“审批”是为了解决问题,解决什么问题?,还是为了逃避责任?谁逃避了责任?谁又有责任?

对于这类问题,我心里已经有数了,但想知道这位朋友的回答,就接着问:那么怎么杜绝这类问题呢?

这位朋友说的做法,我之前待的一个团队的做法也差不多:会有一个页面专门记录下每次部署的步骤,步骤由开发人员写,然后由运维人员执行。只是我不知道他们会不会回顾之前所有针对这台机器的部署步骤。

这个团队里有某某大型互联网公司来的架构师和某财务软件公司来的运维,所以,我不负责地推测,我们这个行业很多公司对于配置的管理还没有达到足够的重视,也没有正确的看待。

我笑了,接着问朋友:那我要知道当前机器的“最终状态”,是不是要找出所有部署记录,还要过滤出对这次部署有影响的每一个细节?比如那条 Iptable 规则。

接下来的对话细节已经记不清,也不重要了。重要的是找出针对这类运维事故根本原因及解决办法。

我个人认为这类问题的根本原因在于:

以上只是我个人认为的,不一定正确,欢迎各位读者讨论。

那如何杜绝这类问题呢?

这两个原因可以看作一个,也可以看作两个。但方法都是一样的:

脚本式的配置管理是这样的:

而声明式的配置管理是这样的:

声明式的配置里写的是当前环境的“状态”,语意上,声明式的配置不论你执行多少次,你得到最终的“状态”就是你所声明的,这也就实现了《持续交付》里说的:

这样,你就不用在第1000次部署时,根据前999次部署脚本找出对这一次部署有影响的细节了。

具体实践时,我发现 Ansible 就能很好的做到这点。

将这些配置版本化的好处,就不需要重点说明了。

具体一点的说就是所有环境都使用相同的声明配置,具体到不同环境时,使用变量替换。这样就可以保证所有环境的一致性了。

具体实践方法,还需要根据所在团队调整。你也可以通过本文附录里链接,参考其他人是如何实践的。

关于配置管理

多环境配置管理

突发事件应急处理六大原则

突发事件应急处理六大原则,包括迅速报告的原则,主动抢险、迅速处理的原则,生命第一原则,科学施救、控制危险、防止事态扩大的原则,保护财产安全、确保设施安全的原则,和保护现场、收集证据原则。
突发事件应急处理六大原则
突发事件是指突然发生,或者有可能造成严重的社会危害,需要紧急采取处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件。
突发事件应急处置时应当优先救助受突发事件所危害到的人员,在实施救助过程中应当充分保障危害人员的生命安全,并且也要保障参与应急救援人员的安全。
为了降低突发事件所造成的危害,通常会事先做好应急预案,避免遭受到不必要的损失。

如何应对工作中的紧急事件?

第一、要保持冷静。在突发事件中保持冷静的人往往能最先摆脱困境,不仅如此,领导者处变不惊的姿态也会对下属及周边产生正面和积极的影响。
第二、迅速作出分析和判断,果断决策,采取有力措施,全力稳定事态。
第三、随机应变,力争损失、风险最小化和利益最大化。
第四、在适当的范围内公布处置结果和善后措施,但具体内容应服从大局。
第五、深入剖析事件背后的因果关系,总结经验,吸取教训,形成预案。

如何做好突发事件应对处置工作?

做好突发事件应对处置工作,应做到以下几点:

制定预案是基础。凡事预则立,不预则废。科学制定、适时演练、及时修订、不断完善各种应急预案,形成一个“相互衔接、配套协调、横向到边、纵向到底”的应急预案体系,是做好突发事件应对处置工作的基础环节。

加强储备是保障。加强应急物资、资金、人员的储备,是做好突发事件应对处置工作的有力保障。

一是物资储备,主要包括大型机械设备、运输工具、通讯设备、能源、砂石料、钢材、粮食、药品等。

二是资金准备,建立应急资金专账,以备急需。

三是人员准备,重点是加强应急救援队伍建设,主要包括公安、武警、消防、卫生、基干民兵、技术专家等应急分队准备。

及时报告是关键。突发事件发生的第一时间,是处置的黄金时间。

科学处置是核心。现场科学处置、控制事态发展、减少损失,是做好突发事件应对处置工作的核心。

一是根据突发事件的性质迅速出动具备相应处置能力的应急队伍,在第一时间赶到事发现场。

二是结合应急预案和现场事态情况,果断科学决策,采取得力有效措施迅速控制局面。

三是坚持“优先救人,救物次之”的原则。

四是超出处置能力的,迅速请求上级应急管理部门支援。

善后处理。事后恢复与重建,以及善后处理是做好突发事件应对处置工作的重点。

突发事件广义上可被理解为突然发生的事情:第一层的含义是事件发生、发展的速度很快,出乎意料;第二层的含义是事件难以应对,必须采取非常规方法来处理。狭义上,突发事件就是意外地突然发生的重大或敏感事件。

可分为自然灾害、事故灾难、公共卫生事件、社会安全事件等四类。

处置的六个原则:

以人为本,减轻危害。

统一领导,分级负责。

社会动员,协调联动。

属地先期处置。

依靠科学,专业处置。

鼓励创新,迅速高效。

关于运维紧急事件对外处理和运维紧急事件对外处理措施的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 运维紧急事件对外处理的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于运维紧急事件对外处理措施、运维紧急事件对外处理的信息别忘了在本站进行查找喔。
上一篇:运维紧急事件工作记录(运维紧急事件工作记录表)
下一篇:使用Glances工具来监视系统
相关文章

 发表评论

评论列表