小米运维自动化路线图 | 运维自动化专题04

网友投稿 1137 2022-09-28

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

小米运维自动化路线图 | 运维自动化专题04

编辑

董伟@SpeedyCloud(文章整理)刘玉强(发布)

主要讨论人员

laiwei@小米龚林@中金所-上海

本文主要是运维自动化的两个案例。请笑纳。因微信限制,作者只能显示laiwei一人,实际还包括龚林。致歉~

案例1:小米的自动化运维发展过程

上图就是我们的运维发展路径,我们的运维团队,从无到有大概三年多点,基本上经历了较为完整的发展过程。目前,我们刚好处于平台管理阶段~系统自调度阶段这个之间。

我直接从第三个阶段开始介绍。其实自动化运维,主要工作量体现在以下几个方面,但首先必须有规范,有标准,有了这些才能谈下一步的自动化运维:

业务部署和变更监控管理和变更容量的伸缩故障的处理

围绕上面提到的四个工作量的分析和分解,那么接下来就是逐个击破了。

部署:

从第一步开始,我们就制定了严格、可扩展的部署标准和规范。然后,基于此,设计开发、推进自动化部署系统,目前公司的服务,90%都是通过自动化部署系统来发布的。而且,有一大部分的服务变更是由dev自己来完成的。因为,足够标准,足够规范,且有系统保证,所以由运维人员来操作也好,由dev来操作也好,效果都是一样的。运维人员,更多的是协助dev,第一次接入到自动部署系统中,或者只负责核心服务的变更,这样大大解放了人力。

监控:

以前监控是个大难题,每天耗费运维人员很多很多的精力,包括第一次添加监控,以及服务容量伸缩之后,需要变更监控(这个最痛苦)。变更过程中,很容易造成监控的漏加,造成运维事故,对大家的影响很大。因此,我们设计开发了小米的监控系统Falcon,目前也正在开源过程中, http://open-falcon.com (大家直接参考文档就好,有问题再交流)open-falcon主要的优势就是 易用。即监控只需要添加一次,就再也不需要变更监控了。

容量:

容量的伸缩,也是个大问题,虽然有自动发布系统,也还不够好,还有发掘的潜力。

故障:

目前还在总结提炼过程中,后续会将一些典型的故障处理过程自动化。

新的征程:“系统自调度”

在上一个阶段的中,我们定义了标准的代码编译,发布,打包规范,并提供了标准化、自动化的部署系统,给各位sre、dev使用,实现自动化部署。到了现阶段,我们基于上一个阶段的规范,进一步的完善计算资源层面的调度,实现服务实例的自动容量伸缩。这些目标都是基于mesos、marathon、docker等开源技术来构建,并联动cmdb、监控系统、naming、lvs等内部系统,实现自调度。

案例2:交易所从零开始的运维自动化

环境介绍:

百台物理机、千台虚拟机,比起互联网公司来,交易所应用和用户规模都比不上,所以能称得上小环境;

零自动化:

我们目前全面脚本运维,脚本碎片化严重,不易管理,按现在的标准来看确实也是零基础的。

在这种条件下,我们开始是做主机、网络、数据库的配置管理,因为要适应开源软件的使用方式,之前我们都是靠厂商和第三方供应商,人员知识技能储备不足,用起开源软件没有支持,一下子不太适应;

另外,开源软件有很多坑要去踩,也要做二次开发,所以选择配置管理这个业务逻辑比较简单的开始入门我觉得是比较好的选择。等流程、习惯、软件、人员都适应和磨合结束后,就可以开始做最关键的应用自动化发布了。

从零开始做自动化运维,宣传和教育很重要,一般没用前大家都在聊自动化运维,等真要给他们用了,会以各种理由推脱延缓使用,归根到底,我感觉一是担心自动化运维自动不成熟,给他们添麻烦,看看别的岗位用的好不好再说;二是惯性和习惯,已经习惯敲命令解决了,再要让他们去学习使用和适应新的事务有点障碍,特别是一些资深员工;还有认为,小环境,维护工作量还能hold住,痛点不在这里,没必要上。

小规模运维环境,零自动化,如果想走自动化道路,(创业团队)该如何着手?

无论环境大小,职责范围需要理清,就是专职,数据库,运维,监控,部署等等。初期可能是一个人,两个人其次是技术选型,容器技术还是VM,以及相应技术的人员(技术储备)做好版本控制,流程控制(快速迭代的准备工作)手工部署以及脚本归档 以上我们开发测试目前采用git+Jenkins+docker+python形成自动编译部署以及开发人员环境的按需分配

精彩观点摘录

自动化只是个概念,和云计算一样,后来叫出来了而已。我觉得我们可以抛开这个概念,去想随着技术和业务的发展我们对于可运维型,运维工作的效率的要求是什么?要求到了极致,其实就是所谓的自动化,技术人员一定要做到不要被炒出来的概念和名词带跑了,外可以变,内要扎住。完全可以不搞”运维自动化”,就不断把工作做的更好,效率更高,错误更少,想各种办法。最后你会发现你比叫嚷自动化的公司还自动化。自动化运维有一点不能忽视,不能因为自动化了,而忽略了对系统的掌控,这点是很容易中招的

如何一起愉快地发展

这是一个新的时代!每个人都有自己的声音,值得被尊重,并且有机会被尊重。

高效运维系列微信群于2015年4月底创建,已然成为国内高端运维圈子。现有会员800余名,其中运维总监及以上级别会员300多名。

来吧朋友,共襄盛举。

题图来自:佚名

上一篇:智能运维监控平台系统公司推荐(自动化运维监控系统)
下一篇:有成熟的智能运维解决方案厂家吗?(智能运维模块)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~