AIOps 一场颠覆传统运维的盛筵
861
2022-09-27
读书●思考●运维
前言
“清明时节雨纷纷,思考运维的灵魂”
清明是个合适读书与思考的日子,这次运维军团不谈技术细节,推荐读一本书《SRE: Google运维解密》,站得高,望得远,浅谈运维的思想,也是对工作的反思。如果你习惯读原汁原味的,可以上google在线看英文原版,书名《Site Reliability Engineering: How Google Runs Production Systems》
SRE翻译过来是“站点可靠性工程师”。好吧,一般还是叫作运维工程师。
废话少说,我们直接进入主题。看看现在的世界大厂用经验写出来的书有哪些闪亮的点子。
1. 错误预算
错误预算是谷歌提出的一个新鲜的概念,首先它承认错误本身的必然存在,拥抱风险,避免提心吊胆追求零故障。
任何产品都不是,也不应该做到100%的可靠,因为对用户而言,99.999%和100%的可用性没有实质性的区别。就算我们将系统变为100%可靠也并不能给用户带来任何实质意义的好处,却花费了巨大的成本,得不偿失。
然后,确定错误预算计算方法,产品部门根据产品以及用户满意度的情况,主导制定可靠性目标,比如99.99%,那么错误预算就等于0.01%,算下来一个季度有13.14分钟。
有了这个错误预算的指标之后,后面很多事情就可以顺理成章的开展,而不是拍脑袋去决定。
在保证服务可靠性范围内,大家可以尽快上线新功能,抢占用户市场;同时允许一定周期内必要的有损灾难演习,增加运维人员的灾难意识和操作熟练度,检验容灾方案的可用性。
另外,因为产品研发团队与运维团队目标一致,所以两个团队也能更好的互相支持,减少冲突和内耗,总体提升产品运营的效率。
2. 重视自动化运维系统的设计开发
传统运维工作占50%的时间,另外50%的时间和力气用在自动化运维系统的设计开发上。
简单来说就是运维人员按标准流程干活之余,要留出足够的时间来思考怎么把前面50%的工作量优化掉。一方面前面50%的工作是重复无聊的,会随业务规模的增长而增长,另一方面,只要是需要人参与的操作,都认为是不可靠的。
有人举了个极端的例子:
有一天发现机房的一整个机柜的机器坏了,等这个消息传达到数据中心的时候,数据中心这个人去扳这个开关,就扳错了,另一个机柜灭了,然后扳起来,结果把两个一起扳起来,导致整个供电负载超高,整个数据中心停电了,这可能是数据中心人员最糟糕的错误。
让小编自豪的是咱运维军团内部也开发了一系列蓝x运维系统,上天入海,眼捷手快,各个业务线可谓遍地开花。
懂开发的运维才是好运维,在你学好支撑产品的各种运维知识的同时,Python,Go!
3. 不能将碰运气当成战略
其实也就是墨菲定律,会出错的事总会出错。对我们的指导意见是线上环境务必做好容灾方案,避免单点。
硬件机器是肯定要在节日宕机的,网络肯定是会在凌晨睡觉的时候中断的,不要心存侥幸,那就全力去做好应对方案吧。
4. 监控系统的新要求
一个需要人工阅读邮件和分析警报来决定目前是否需要行动的系统,从本质上来说就是错误的设计。
监控系统不应该依赖人来分析警报信息,而是应该由系统自动分析,仅当需要运维执行某种操作的时候,才需要发邮件通知。
所以监控系统同时要负责起故障自愈的功能。现在如果磁盘空间占用90%了,觉得应该做什么?
5. 深入业务拥抱业务
谷歌SRE要求深度参与产品开发阶段的工作,对应用程序的设计实现方式、依赖库、运行时的资源消耗都有严格的约定。将运维基础资源和业务高度整合起来,然后提供业务可视化的窗口展示,为业务稳健向上赋予强大的动能。
比如咱军团的蓝x系统,既有APM故障排查工具在前端获取用户的运维监控数据,又从服务器获取业务程序处理日志,实现端到端全方位的业务监视,为业务保驾护航。
6. 事后总结
事后总结包括几个重点:
发生了什么?事情原因及其他隐患?如何更快的有效响应?当前及更优的解决之道。避免以后掉进同一个坑。
同时,这个事后总结的过程不应该归责于任何个人,更重要的是,作为一个团队,我们要找问题所在,如何避免问题再次发生。一个充满相互指责风气的团队很容易让人将事故和问题掩盖起来,从而对整个组织酿成更大的灾难。
每个事故都会进行事后总结,同时整个团队内部传阅学习。
结语
简单结合运维军团自己的经历,总结了6点很有共鸣的读书心得。这本书还有关于培训管理等很多很不错的内容值得慢慢品味。没读过的同学可以下载来,有空时候慢慢看。当然每个产品背后的团队规模不一样,具体怎么借鉴实施,就见仁见智了。
在这个满天云服务的新时代,运维远离底层硬件,靠近软件架构,构建运维服务化平台,为企业客户打造强壮的软件构架。最后,说句重要的话,谷歌内部SRE是有很高地位的。
近期文章
10分钟打造炫酷的监控大屏自建CDN实战经验合集之一种实现分片缓存方式的探讨运维春节指南-装逼手册Redis探索之路在游戏运维实战中摸索前行的“异地双活”架构
END
如果你喜欢我们的文章,请转发到朋友圈
如果你喜欢我们的文章,请转发到朋友圈
发表评论
暂时没有评论,来抢沙发吧~