读书●思考●运维

网友投稿 861 2022-09-27

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

读书●思考●运维

前言

“清明时节雨纷纷,思考运维的灵魂”

清明是个合适读书与思考的日子,这次运维军团不谈技术细节,推荐读一本书《SRE: Google运维解密》,站得高,望得远,浅谈运维的思想,也是对工作的反思。如果你习惯读原汁原味的,可以上google在线看英文原版,书名《Site Reliability Engineering: How Google Runs Production Systems》

SRE翻译过来是“站点可靠性工程师”。好吧,一般还是叫作运维工程师。

废话少说,我们直接进入主题。看看现在的世界大厂用经验写出来的书有哪些闪亮的点子。

1. 错误预算

错误预算是谷歌提出的一个新鲜的概念,首先它承认错误本身的必然存在,拥抱风险,避免提心吊胆追求零故障。

任何产品都不是,也不应该做到100%的可靠,因为对用户而言,99.999%和100%的可用性没有实质性的区别。就算我们将系统变为100%可靠也并不能给用户带来任何实质意义的好处,却花费了巨大的成本,得不偿失。

然后,确定错误预算计算方法,产品部门根据产品以及用户满意度的情况,主导制定可靠性目标,比如99.99%,那么错误预算就等于0.01%,算下来一个季度有13.14分钟。

有了这个错误预算的指标之后,后面很多事情就可以顺理成章的开展,而不是拍脑袋去决定。

在保证服务可靠性范围内,大家可以尽快上线新功能,抢占用户市场;同时允许一定周期内必要的有损灾难演习,增加运维人员的灾难意识和操作熟练度,检验容灾方案的可用性。

另外,因为产品研发团队与运维团队目标一致,所以两个团队也能更好的互相支持,减少冲突和内耗,总体提升产品运营的效率。

2. 重视自动化运维系统的设计开发

传统运维工作占50%的时间,另外50%的时间和力气用在自动化运维系统的设计开发上。

简单来说就是运维人员按标准流程干活之余,要留出足够的时间来思考怎么把前面50%的工作量优化掉。一方面前面50%的工作是重复无聊的,会随业务规模的增长而增长,另一方面,只要是需要人参与的操作,都认为是不可靠的。

有人举了个极端的例子:

有一天发现机房的一整个机柜的机器坏了,等这个消息传达到数据中心的时候,数据中心这个人去扳这个开关,就扳错了,另一个机柜灭了,然后扳起来,结果把两个一起扳起来,导致整个供电负载超高,整个数据中心停电了,这可能是数据中心人员最糟糕的错误。

让小编自豪的是咱运维军团内部也开发了一系列蓝x运维系统,上天入海,眼捷手快,各个业务线可谓遍地开花。

懂开发的运维才是好运维,在你学好支撑产品的各种运维知识的同时,Python,Go!

3. 不能将碰运气当成战略

其实也就是墨菲定律,会出错的事总会出错。对我们的指导意见是线上环境务必做好容灾方案,避免单点。

硬件机器是肯定要在节日宕机的,网络肯定是会在凌晨睡觉的时候中断的,不要心存侥幸,那就全力去做好应对方案吧。

4. 监控系统的新要求

一个需要人工阅读邮件和分析警报来决定目前是否需要行动的系统,从本质上来说就是错误的设计。

监控系统不应该依赖人来分析警报信息,而是应该由系统自动分析,仅当需要运维执行某种操作的时候,才需要发邮件通知。

所以监控系统同时要负责起故障自愈的功能。现在如果磁盘空间占用90%了,觉得应该做什么?

5. 深入业务拥抱业务

谷歌SRE要求深度参与产品开发阶段的工作,对应用程序的设计实现方式、依赖库、运行时的资源消耗都有严格的约定。将运维基础资源和业务高度整合起来,然后提供业务可视化的窗口展示,为业务稳健向上赋予强大的动能。

比如咱军团的蓝x系统,既有APM故障排查工具在前端获取用户的运维监控数据,又从服务器获取业务程序处理日志,实现端到端全方位的业务监视,为业务保驾护航。

6. 事后总结

事后总结包括几个重点:

发生了什么?事情原因及其他隐患?如何更快的有效响应?当前及更优的解决之道。避免以后掉进同一个坑。

同时,这个事后总结的过程不应该归责于任何个人,更重要的是,作为一个团队,我们要找问题所在,如何避免问题再次发生。一个充满相互指责风气的团队很容易让人将事故和问题掩盖起来,从而对整个组织酿成更大的灾难。

每个事故都会进行事后总结,同时整个团队内部传阅学习。

结语

简单结合运维军团自己的经历,总结了6点很有共鸣的读书心得。这本书还有关于培训管理等很多很不错的内容值得慢慢品味。没读过的同学可以下载来,有空时候慢慢看。当然每个产品背后的团队规模不一样,具体怎么借鉴实施,就见仁见智了。

在这个满天云服务的新时代,运维远离底层硬件,靠近软件架构,构建运维服务化平台,为企业客户打造强壮的软件构架。最后,说句重要的话,谷歌内部SRE是有很高地位的。

近期文章

10分钟打造炫酷的监控大屏自建CDN实战经验合集之一种实现分片缓存方式的探讨运维春节指南-装逼手册Redis探索之路在游戏运维实战中摸索前行的“异地双活”架构

END

如果你喜欢我们的文章,请转发到朋友圈

如果你喜欢我们的文章,请转发到朋友圈

上一篇:Zabbix 集成 OneAlert 实现全方位告警(zabbix是什么)
下一篇:PHP 性能分析第二篇: Xhgui In-Depth(php培训)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~