如何在智能告警平台CA触发测试告警
1492
2022-10-02
运维体系建设---巡检规范
连续发纯技术文章已经十多天了,大多都是存稿,也是一些这些年工作的精华,实实在在是一些敢肯定别人没有我做的好的东西。但也许是专业方向太偏,让别人看着有些许迷茫。
最近也一直在思考之后发些什么内容,作为一个天秤座奢望追求完美的同时,纠结了整整两天。想了一下,还是希望能体现一些自己的成长历程,职业发展,技术发展,生活态度什么的,希望可以给大家带来那么一点点帮助。
对了,经过漫长的半年时间,我终于~~~~~转正了。莫非是表现有那么一点点突出?Q4的绩效从Q3的运维保障变成了架构设计,运维体系、平台的建设。当然,工资没涨,失望脸。
这次给大家带来一系列高端的东西,体系建设,不定期更新此系列。
运维巡检规范
一、巡检方式
1、日常巡检 按照规定时间对运维管理范围各系统、数据库、服务器、备份进行检查。
2、计划内巡检 针对于某一暂时无法解决需要手动运维一段时间的情况,进行不定时检查。
3、特殊情况巡检 对服务升级,业务更变,例如用户量突增的情况,以及其他需要时进行的业务及服务器检查。
4、不定期抽检 由运维组非巡检人员进行
二、巡检时间
根据业务需求,按照天、周、月进行业务巡检。
暂定日常巡检为每工作日十点之前,完成巡检内容,填写巡检表,上传至xxx。
三、巡检内容
1、日常巡检内容:
<1>Zabbix仪表盘检查
<2>服务器资源巡检
<3>备份检查
<4>url监测
<5>完成巡检表,并归档。
2、其他巡检内容:
针对相关问题进行针对性巡检,如前一天24小时cpu及内存最大值等数据,必要时形成报表。
四、巡检改善
在日常运维工作中,运维工程师有发现有巡检内容存在覆盖面不全问题需积极反馈,经过小组讨论可行性后,修改相应流程及脚本,测试无误后上报进行审批。
五、日常巡检表
检查时间 | xxx年xxx月xxx日 xx:xx | 检查人 | xxx | |||
检查项 | 结论 | 异常业务及其情况 | 是否通知负责人 | 负责人 | ||
Zabbix仪表盘 | 正常/异常 | 微链通信企业空间-kafka-1 | 是 | xxx | ||
服务器资源 | 正常/异常 | Ip地址 磁盘空间不足 | 是 | xxx | ||
备份情况 | 正常/异常 | 数据库备份失败 | 是 | xxx | ||
url监测 | 正常/异常 | 是 | xxx | |||
异常情况记录 | ||||||
异常业务名称 | Openfire | 服务异常时间 | 10分钟 | |||
异常现象描述 | Zabbix页面发现xxx服务器openfire服务停止 | |||||
异常服务器 | 1.2.3.4 | 异常数据 | cpu | 80% | ||
异常现象描述 | Cpu负载与通常相比较高,需要检查业务。 | |||||
异常url | 异常码 | 404 | ||||
异常现象描述 | 监测程序返回404,手动测试无法访问。 | |||||
六、巡检正常操作详解
1、Zabbix仪表盘检查
<1>登录zabbix监控系统
<2>观察仪表盘系统状态是否存在异常,见下图:
2、服务器资源巡检(巡检流程待优化)
<1>登录自动化服务器
<2>进入ansible目录,cd opt/ansible
<3>执行命令
ansible -i ansible_hosts/mclink_hosts mclink -m shell -a "sh /opt/bin/xunjian.sh"
<4>观察分析以下数据是否存在异常
3、备份检查
<1>登录数据库服务器
<2>进入备份目录 backup/xxx
<3>查看最新备份文件日期
<4>进入目录查看backup.log及.sql文件大小是否正常。
4、待完善
发表评论
暂时没有评论,来抢沙发吧~