运维体系建设(稳定性保障体系9)

网友投稿 1013 2022-10-07

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

运维体系建设(稳定性保障体系9)

(本字共1930字,大约需要阅读5分钟)

故障管理

我们现在知道了故障排查的一些思路,这些思路都是做这件事的策略,但在故障的排查过程中,还要受限于其他一些外部因素的限制,比如不可能无限时的排查下去,你在使用故障排查方法的过程中还必须承受外部的人和事对你的压力,所以故障的响应过程涉及一些做事的底线和心理学的缓解方法。本部分就聊聊故障响应中技术原因之外的部分,这些内容都会对故障的处理效率产生影响。

报警的响应时间与服务等级的设定相关:如系统想要达到99.99%的可用度,那么每个季度共有13分钟的不可用时间,说明系统恢复时间必须在分钟级别上响应生产事故(13分钟以内)。这是故障响应的时间底线,生产报警信息的处理是运维工作的第一紧急要务,几乎超过一切其他活动,包括研发项目的进行,运维人员必须有能力在故障发生后通过动员所有可用的力量全力处理故障。

图 74压力应对模型

压力的危害

故障事件的重要性和修复所带来的影响程度会对值守工程师造成巨大的精神压力,危害身体健康,并导致在处理问题过程中犯错误,从而影响整个系统的可靠性。从医学上讲,压力状态下释放的荷尔蒙,例如皮质醇和促肾上腺皮质素(CRH)都会对人的行为造成影响,甚至造成恐惧,进而影响人类进行正常认知功能的工作,最后导致错误行为的生产。

应对策略

在面对挑战时,一个人会主动或非主动(潜意识)的选择直觉或理性两种处理方法:

1、直觉处理

人在面对挑战时,如果压力过大容易选择直觉处理法:依赖直觉,自动化、快速行动。从处理效果上看,利用直觉面对挑战很容易导致过度联想现象的产生,即根据已知现象快速推断未知现象的原因,从而没有认真处理,导致欲避免事故不可避免的发生。再者,直觉很可能是错误的,而且直觉一般都不是基于明确的数据支持的,快速反应主要是由习惯而产生的,习惯性的快速反应的动作后果一般都未经过详细考,这可能会产生次生事故。

2、理性应对

在面对挑战时理性处理法:理性、专注、有意识地进行认知类活动。在应急事件处理过程中,最理想的方法论是:在有足够数据支撑的时候按步骤解决问题,同时不停的审视和验证目前所有的假设。

减轻压力

能够让人理性应对,就要减轻人的压力,下面我们说说减轻压力的方法。每个人都有一个承压极限,在超过可承受的极限后就会进行直觉处理,这是故障处理中要极力避免的事情。

1、流程因素

减轻运维值守压力的流程方法有:清晰的问题升级路线、清晰定义的应急事件处理步骤、无指责、对事不对人的文化氛围

无指责、对事不对人的文化氛围不仅会影响上一次故障处理后事件分析的真实度,还会影响本次故障处理的人的压力和处理效率。

应急事件处理步骤可使人不会惊慌失措。问题升级路线用于当处理人自己难以应对时,可使更多的人参与进来。这两项都是需要事先制定好的,所以应用预案的制定对组织、对客户、对个人都是有益处的。

2、监控因素

人犯错误是不可避免的,软件系统应该提供足够的自动化工具和检查减少人为犯错的可能性。

错误的监控系统配置常常是导致运维压力过大的原因。报警策略必须跟服务的SLO目标一致,每条报警信息必须是可实际操作的(有明确的动作需要执行),避免频繁触发低优先级报警和“狼来了”效应导致真正重要的报警被忽略。另外要对信息进行分组汇总后进行报警。如果某条报警规则经常产生重复或相关报警,那么需要修改报警规则。报警事件和报警次数的比例应为1:1,而不应该是一个故障导致N个报警。

另外,工程师在处理紧急事件时,需要暂时禁止重复和无关报警,以便更好的专注在真正重要的工作上,这一点需要写入应急预案中。

造成运维故障响应压力上升的因素可能不是可控的,这需要和可以控制的团队设立一个共同的目标,解决运维压力问题。在极端情况下,可以选择停止支持某个服务,该服务由开发团队负责值守,直到系统达到设立的稳定性目标为止。或者将某些报警信息转交给研发组处理。

3、心理因素

运维人员值守周期太长或系统太稳定时,长时间不操作生产环境会导致自信心问题,包括自信心太强或自信心不够,这些现象只有在下一次发生问题时才会显现出来。另外进行灾难恢复演习,要针对理论性和实际性的灾难进行演练。所以运维人员要全员参与值守,另外灾难演练要符合实际业务情况。

在事故处理过程中,要反思自己,注意自己的情绪和精神状态,如果发现开始惊慌失措或者感到压力难以承受,应该寻求更多的帮助,而不应该带着这种压力继续工作。

处理故障是一个有压力的工作,即便是讨论故障也是一个很压抑的过程。我们后面要聊的很多话题实际上都是为了在实际故障处理中缓解这种压力,不管这种压力是来自于内部还是外部。我们明天将讨论故障的事后处理——故障复盘,从故障中吸取处理故障的经验。

上一篇:docker怎么设置开机不要启动
下一篇:docker存储空间不足怎么办
相关文章

 发表评论

暂时没有评论,来抢沙发吧~