运维体系建设---巡检规范

网友投稿 1492 2022-10-02

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

运维体系建设---巡检规范

连续发纯技术文章已经十多天了,大多都是存稿,也是一些这些年工作的精华,实实在在是一些敢肯定别人没有我做的好的东西。但也许是专业方向太偏,让别人看着有些许迷茫。

最近也一直在思考之后发些什么内容,作为一个天秤座奢望追求完美的同时,纠结了整整两天。想了一下,还是希望能体现一些自己的成长历程,职业发展,技术发展,生活态度什么的,希望可以给大家带来那么一点点帮助。

对了,经过漫长的半年时间,我终于~~~~~转正了。莫非是表现有那么一点点突出?Q4的绩效从Q3的运维保障变成了架构设计,运维体系、平台的建设。当然,工资没涨,失望脸。

这次给大家带来一系列高端的东西,体系建设,不定期更新此系列。

运维巡检规范

一、巡检方式

1、日常巡检 按照规定时间对运维管理范围各系统、数据库、服务器、备份进行检查。

2、计划内巡检 针对于某一暂时无法解决需要手动运维一段时间的情况,进行不定时检查。

3、特殊情况巡检 对服务升级,业务更变,例如用户量突增的情况,以及其他需要时进行的业务及服务器检查。

4、不定期抽检 由运维组非巡检人员进行

二、巡检时间

根据业务需求,按照天、周、月进行业务巡检。

暂定日常巡检为每工作日十点之前,完成巡检内容,填写巡检表,上传至xxx。

三、巡检内容

1、日常巡检内容:

<1>Zabbix仪表盘检查

<2>服务器资源巡检

<3>备份检查

<4>url监测

<5>完成巡检表,并归档。

2、其他巡检内容:

针对相关问题进行针对性巡检,如前一天24小时cpu及内存最大值等数据,必要时形成报表。

四、巡检改善

在日常运维工作中,运维工程师有发现有巡检内容存在覆盖面不全问题需积极反馈,经过小组讨论可行性后,修改相应流程及脚本,测试无误后上报进行审批。

五、日常巡检表

检查时间

xxx年xxx月xxx日 xx:xx

检查人

xxx




检查项

结论

异常业务及其情况

是否通知负责人

负责人



Zabbix仪表盘

正常/异常

微链通信企业空间-kafka-1

xxx



服务器资源

正常/异常

Ip地址 磁盘空间不足

xxx



备份情况

正常/异常

数据库备份失败

xxx



url监测

正常/异常


xxx










异常情况记录







异常业务名称

Openfire

服务异常时间

10分钟




异常现象描述

Zabbix页面发现xxx服务器openfire服务停止






异常服务器

1.2.3.4

异常数据

cpu

80%



异常现象描述

Cpu负载与通常相比较高,需要检查业务。






异常url


异常码

404




异常现象描述

监测程序返回404,手动测试无法访问。



























六、巡检正常操作详解

1、Zabbix仪表盘检查

<1>登录zabbix监控系统

<2>观察仪表盘系统状态是否存在异常,见下图:

2、服务器资源巡检(巡检流程待优化)

<1>登录自动化服务器

<2>进入ansible目录,cd opt/ansible

<3>执行命令

ansible -i ansible_hosts/mclink_hosts mclink -m shell -a "sh /opt/bin/xunjian.sh"

<4>观察分析以下数据是否存在异常

3、备份检查

<1>登录数据库服务器

<2>进入备份目录 backup/xxx

<3>查看最新备份文件日期

<4>进入目录查看backup.log及.sql文件大小是否正常。

4、待完善

上一篇:MIS 060:进阶了解IT运维规划与管理
下一篇:时序型数据库InfluxDB|运维篇
相关文章

 发表评论

暂时没有评论,来抢沙发吧~