睿象云智能告警平台的分派策略
775
2023-02-12
本文目录一览:
一、基础数据概况
CMDB中文是配置管理数据库运维事件单变更注意事项,存储与管理企业IT架构中设备的各种配置信息,与未来的IT运维管理标准化和流程化紧密关联,并且支持流程的运转。运维管理平台创建初期或初版中的CMDB更多是偏向IT资产管理,我们在这里定义的IT资产管理,暂时抛除公司个人使用的普通PC机。
日志主要存储CMDB中涉及到服务器或是其它设备的日志信息。
DB主要是所有IT系统的数据库信息,包括运维管理系统本身的数据库。由于数据库的重要性,所以在基础数据中单独一个模块管理数据库,包括生产数据库、测试数据库、开发数据库。数据库的日志放在日志模块进行统一管理,监控和备份。
知识库主要存储日常运维管理中发生的事件、问题以及一些经典问题的解决和常用的解决方案,主要起到运维管理辅助的功能。
二、基础数据三要素
基础数据要求完整、准确、实时,这三个特性缺一不可。
1.完整性
完整性,要求在数据采集整理阶段,要一一梳理,不能有遗漏。任何一个设备的疏漏都将会导致未来出现问题。例如最近的勒索病毒在防范上需要给服务器升级打补丁,这个时候就是根据服务器清单一一对照,升级。如果有遗漏落下的服务器未及时打补丁而导致病毒入侵,后果将很严重。那么,如何做到完整性呢?大致可以分为以下几步:
首先数据采集阶段多人(推荐三人以上)同时对IT资产进行采集,那么在数据采集完成后,将会有三份或以上的IT资产清单。
接下来就是相互确认阶段。相互check对比两方的清单和自己梳理的清单,找到不一样的地方,大家在一起开会进行讨论。经过这个阶段,会产生一份相对完整且三方(或以上)认可的IT资产清单。
最后就是三方(或以上)一同针对认可的IT资产清单进行最终check,确保最后的清单,是经过多方讨论确认,并最终又check过的IT资产清单。此时这份IT资产清单,相对比较完整。另外在梳理、讨论和check的过程中,针对新增、变更、删除的IT资产一定要及时更新我们的IT资产清单。
2.准确性
准确性要求IT资产清单或是CMDB中存储的数据不能与实际情况有任何差异。要做到基础数据的准确性除运维事件单变更注意事项了在数据采集阶段要下功夫外,要在运维管理的每一个阶段定期对基础数据进行审计,确保基础数据中的数据无误。一般月度一小审,半年一大审,具体情况根据企业的IT规模而定。
3.实时性
基础数据的实时性可以确保数据的准确性。即基础数据的每一次变动,包括增加、删除、修改,不论大小,只要有变动(在运维流程完结阶段,执行运维操作成功后,就要及时更新基础数据。忽略基础数据的实时性,必将导致准确性大打折扣,在以后的月审、年审中必将导致额外的工作量。一般在审计的过程中,当数据的错误率达到一定程度后,需要重新梳理全部数据,以确保最终的准确和完整。
CMDB
CMDB总的来说分为:产品线、资产管理、供应商管理三个部分。
总的思路是:通过产品线管理IT资产,通过IT资产信息管理硬件或服务提供者,供应商管理。
1.产品线
产品线是指整个公司所有IT系统、产品按照属性进行归类划分。这有一个前提,就是梳理整个公司的IT项目和IT服务。这里项目也可以理解为每一套IT系统,例如OA、CRM、订单系统、支付系统等等。
IT服务主要是指:应用服务(Tomcat、WebLogic、数据库服务等),基础IT服务如Nginx、Varnish、Redis等。通过项目和服务两个维度来管理IT资产,尤其是虚拟机。因为一般系统和服务都是部署在虚拟机上,虚拟机的宿主机则是一台台物理主机。
产品线的划分一般除运维事件单变更注意事项了根据业务分类划分几个大的产品线外,还需要划分一些基础产品线,如:信息安全产品线,主要管理信息安全、网络安全等系统和设备等;基础服务产品线,如Nginx反向代理大部分系统,Varnish缓存Web静态资源等。
在这里单独说一下产品线和项目包括的服务必须制定运维优先级等级。运维等级的制定不能简单定义为多少级,而应该是为每一套系统进行运维优先级打分,分值不能一样。这样保证在大面积故障的时候,可以根据优先级解决问题。
2.资产管理
资产管理主要有以下几个方面。
首先是比较大的机房管理。有的企业可能会有多个机房,每个机房的基础信息,如带宽、位置、值班电话等都需要加以整理存储用来管理机房信息。机房中的机架、机柜、交换机、路由器等硬件信息,机房的空调、UPS电源、环境监测系统等都属于机房管理的范畴。
安全设备管理。安全设备管理这里主要包含防火墙、IPS、WAF、VPN等网络设施。企业信息安全非常重要,在运维管理中也把安全作为一个单独的模块进行管理。通过购买安全硬件设备和安全服务,不断学习和研究,从而保护好企业数据信息。
服务器管理。这里假定企业实现了虚拟化,大部分系统和服务都部署在虚拟机,而虚拟机是部署在物理机上。服务器管理分物理机和虚拟机分开管理,同时又密切关联。虚拟机在哪一台或几台物理机需记录清楚。
根据产品线中定义的运维优先度等级,在资产管理中的每一个节点标注上相应的等级分值,以便出现大规模故障,有选择、有重点、有顺序地逐一解决问题。
3.供应商管理
供应商管理主要是管理由第三方企业提供的IT系统或设备的服务信息。记录供应商的具体信息、值班电话、硬件备件库等信息。
以上几个模块单独管理,但是又密切相连。如产品线包含哪些项目,包含哪些服务,这些项目和服务部署在哪些虚拟机上,虚拟机又在哪一些物理机上,物理机分布在哪些机房和在机房中的具体位置,物理机在机房中的网络位置和网络架构如何,经过哪些安全设备等等。
反过来需要知道某一些机房有哪一些物理机,物理机位置,安全设备,以及安全设备与物理机的网络架构等,物理机上又有哪些虚拟机上部署了哪一些项目和服务等。系统和服务属于哪些供应商提供,供应商又提供了哪些系统、设备或服务器等。都要多维度进行管理。要求做到某一环节的故障,一查就知道所有受影响的系统和服务。CMDB中的信息相互交织,多维度查询和管理,构建出一张完整的总体架构图,通过总体架构图除了展现出各个部分的基础信息外,还描述了所有的依赖关系,做到坏一点而知全面。
日志
通过日志可以比较准确全面地知道系统或是设备的运行情况,可以返查问题产生的原因,还原问题发生的整个过程。通过日志也可以提前预测系统可能要发生的问题或是故障,如系统安全日志,如果网络攻击会在系统安全日志中有一定的体现。
1.系统日志
系统日志主要指的是操作系统的日志,主要在/var/log下的各种日志信息。包含系统操作日志、系统安全日志、定时任务日志等。系统日志是运维管理安全模块中审计的重要依据。一般默认的操作系统日志不能满足要求,需要对系统的参数进行修改,如为history命令加上时间戳、IP,并且长久保留历史等功能。并且对日志文件进行处理,不允许用户进行清空命令,只能append。
2.应用日志
应用日志主要记录应用服务的健康运行情况以及业务操作的具体日志两部分。应用监控运行情况反应应用服务的健康状态,如果应用占用CPU或是内存过高或是忽高忽低不定,都可以通过分析应用日志结合业务操作日志得出结论。业务操作日志可以为业务审计提供主要依据。有一些系统喜欢把业务操作日志写到数据库中,这个也是需要注意的。不过不管在哪个地方,要求是不可缺少的,它为以后业务审计和问题返查提供依据。
3.数据库日志
数据库日志主要反馈数据库的运行情况。通过监控和管理数据库的日志,及时了解数据库的运行情况,遇到问题及时解决等。可以通过数据库日志结合数据库系统自带的数据库如Oracle的系统视图v$开头,MySQL的performance_schema等。虽然数据库的一些信息不是存在日志中而是在数据库里面,但是也可以作为数据库日志的一部分进行管理和监控,已便我们及时知道数据库的监控状况,从而预防可能出现的问题。
4.设备日志
设备日志一般是一个比较容易忽略的地方,但设备日志往往可以反映设备的运行情况。交换机故障,防火墙故障等设备故障都可能引起大面积的系统和服务故障。所以设备日志一定要收集,分析和监控预警。常用的设备日志有交换机日志、防火墙日志、网络安全设备日志等。
在CMDB中梳理的IT基础设施的基础上,对日志进行分类收集、管理、分析和监控,配着监控管理模块的系统,就已经可以达到多方位监控IT系统,保障IT系统的安全稳定。
DB
由于数据和数据库的重要性,在基础数据中,数据库作为单独的模块存在,根据环境划分为:生产数据库、测试数据库、开发数据库。严格区分三种环境的数据库,避免测试数据到生产环境,生产数据到测试环境等。另外数据库中数据也为业务监控提供数据依据。通过查询数据库中的数据,依据业务逻辑进行判断是否有错误或是遗漏的数据。
知识库
知识库在整个运维管理中是一个辅助功能,主要为运维提供事件管理、问题管理。很多朋友可能会疑惑为什么把事件库和问题库放在知识库这里,这些不是应该在CMDB中吗?这里稍微解释一下,其实本人也并不太清楚这种办法是否可行。在CMDB模块中更多是偏向IT资产管理,为以后的运维操作提供运维范围和运维目标。而事件(主要指运维过程中遇到的所有的运维事件)和问题(需要进行变更发布才能解决的事件升级)更多是在IT资产之上,是解决IT资产的过程中遇到的事件和问题。如果把CMDB作为IT运维的基础管理对象和范围目标的话,事件和问题应该单独出来。也许在后面的运维管理中,逐渐强化CMDB的功能,会把事件库和问题库回归到CMDB模块中。
知识库中还包含经典案例库,主要是解决一些常遇故障、经典问题的解决方法的整理和归档。
解决方案库只要是一些常用的或是探索中的解决方案,例如:Nginx+Tomcat+Redis部署方案,FastDFS分布式文件服务器方案等。
文档库主要用来存储运维管理过程中执行的运维标准和规范以及运维的流程规范,常用的一些规范举例:
文档库也包括一些企业或是部门的规章制度,与供应商的合同条文等。主要是涉及到IT系统文档的一个存放和查阅的地方。
运维标准和运维流程的文档一定是必不可少的。因为运维自动化的前提就是运维的标准化和流程化。如果没有明确的标准和规范的流程,运维自动化就只能一直停留在测试环境的假想空间中。
总结
基础数据在整个运维管理中起到基础、奠基的重要作用,也是做运维管理平台的第一步和以后每一步的重要依据。一定要舍得投入时间、人力等来建立起完整、准确、实时的基础数据。打好地基,以后运维的每一步都将有条不紊地循序渐进,终将建设成属于运维的高楼大厦。
一、机房日常运维管理
1、运维人员每天在8:30到达机房进行设备巡检,每天17:30下班后再次进行设备巡检,并在《设备日巡检记录表》中进行记录。如发现异常情况,需立即上报机房主管人员,并联系相关产品服务商获取技术支持。
2、对任何异常情况及其处理操作应在事件单中被记录,为日后的问题管理提供依据。
3、机房运维人员每天上、下午均应合理安排时间在机房查看设备运行状态,包括内存、硬盘、CPU等系统资源状态,如出现资源运行异常,应查看相关系统设备运行进程并转入事件管理流程进行处理。
4、保持机房整洁、卫生。所有设备摆放整齐有序,不得将任何废弃物品留在机房内。不得存放与工作无关的物品,机房的物品不得私自带走。
二、机房网络安全管理
1、新购置的设备,在安装、使用前应当认真经过安检。使用之前采取防止病毒感染措施,试运行正常后,再投入正式运行。
2、机房设备严禁连接互联网。
3、对于网络设备和服务器,要制定不同的用户账号,赋予不同的用户操作权限,并予以登记、备案。禁用guest账户,删除服务器中的多余的、过期的以及共享的账户。必须定期统计相关信息和操作状况,并向上级领导。
4、设置登录服务器的操作超时锁定,超过10分钟不操作即锁定,需要重新认证后登录。
5、系统中所涉及的涉密服务器、终端、以及应用程序的本地登录和远程登录必须进行用户身份鉴别,并与安全审计相关联,保证系统内安全事件的可查性。
6、禁止任何部门和个人严禁进行渗透测试,严禁攻击其它联网主机,严禁散布病毒。
7、严格执行计算机操作规程和各项管理制度,加强对管理人员和工作人员的防病毒教育。
8、网络服务器应当安装防火墙系统,加强网络安全管理。
9、病毒检测和网络安全检测必须指定专门的技术和管理人员负责;负责人员必须定期对网络安全和病毒检测进行检查。定期采用国家相关主管部门批准使用的检测工具对系统进行安全性检测,检测工具和版本应及时更新。对于发现的系统软件和应用软件的安全隐患,必须及时从系统软件开发商和应用软件开发商获取相关的补救措施,如安装补丁软件、制定新的安全策略、升级病毒库等。
三、机房硬件设备安全管理
1、机房运维人员必须熟知机房内设备的基本安全操作和规则,特别是对服务器、交换机进行熟悉操作,做到及时维护。
2、应定期检查、整理设备连接线路,定期检查硬件运作状态(如设备指示灯、仪表),定期调阅硬件运作自检报告,从而及时了解设备运作状态。
3、禁止随意搬动设备、随意在设备上进行安装、拆卸硬件、或随意更换设备连线、禁止随意进行硬件复位。
4、禁止在服务器上进行实验性质的配置操作,如需要对服务器进行配置,应在其他可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。
5、对会影响到全局的硬件设备的更改、调试等操作应预先发布通知,并且应有充分的时间、方案、人员准备,才能进行硬件设备的更改。
6、对重大设备配置的更改,必须首先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改和调整,并应做好详细的更改和操作记录。对设备的更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先准备好后备配件和应急措施。
7、不允许任何人在服务器、交换设备等核心设备上进行与工作范围无关的任何操作。未经上级允许,不得对核心服务器和设备进行调整配置。
8、硬件设备出现故障时,应填写好《硬件设备维修故障登记表》,详细填写故障状况及故障原因,并报修,故障处理结束后,因填写处理情况及结果,交由上级验收、签字后,存档备查。
9、存储过涉密信息的硬件和固件应到具有涉密信息系统数据恢复资质的单位进行维修。
10、不再使用或无法使用的设备应按照国家保密工作部门的相关规定及时进行报废处理,并记录最终去向。
四、机房软件安全使用管理
1、设立计算机软件管理台帐,对每套计算机软件进行登记,并纳入资产管理。
2、妥善保存计算机软件介质、说明书、使用许可证(或合同)等资料。
3、根据操作说明,正确使用各类应用软件。
4、须安装非专用软件,须经上报并检测、办理安装使用备案手续。
5、软件必须由专人来保管,禁止任何人员将机房软件私自拷贝、随意向外传播。
6、任何在用软件的升级均需主管人员书面批准。
五、机房资料、文档和数据安全管理
1、资料、文档、数据等必须有效组织、整理和归档备案。
2、硬盘、软盘、光盘、磁带、带存储功能的设备等涉密信息存储介质应按照所存储信息的最高密级标明密级。
3、禁止任何人员将机房内的资料、文档、数据、配置参数等信息擅自以任何形式提供给其他无关人员。
4、对于牵涉到网络安全、数据安全的重要信息、密码、资料、文档等必须妥善存放。外来工作人员的确需要翻阅文档、资料或者查询相关和数据的,应由机房相关负责人代为查阅,并只能向其提供与其当前工作内容相关的数据或资料。
5、重要资料、文档、数据应采取对应的技术手段进行加密、存储和备份。对于加密的数据保证其还原行,防止遗失重要和数据。
6、严禁使用计算机、终端机、因特网为无关人员查询、调阅涉密数据;存有秘密信息的磁盘、光盘,严禁外借、复制;不得向无关人员提供网络入口及口令。
7、调动工作时,必须将自己经管的涉密文件、资料和使用的保密笔记本上交,并递交在调离后一定期限内不失密泄密的保证书。
8、发现失、泄密现象,要及时上报。
9、不再使用或无法使用的涉密信息存储介质在进行报废处理时,应进行信息消除或载体销毁处理,所采用的技术、设备和措施应符合国家保密工作部门的有关规定。
六、机房保安管理
1、中心机房应采取有效的门控措施,并装备“三铁一器”。
2、出入机房应注意锁好防盗门。对于有客人进出机房,机房相关的工作人员应负责客人的安全防范工作。最后离开机房的人员必须自觉检查和关闭所有机房门窗、锁定防盗装置。应主动拒绝陌生人进出机房。
3、工作人员离开工作区域前,要保证服务器、交换机等设备控制台的密码处于锁定状态。
4、运维人员要严格执行人员出入登记制度,不得邀请无关人员到机房参观,外单位系统、线路维护人员要进入机房需提前与管理人员联系,批准后方可由管理人员陪同进入,并填写《人员出入登记表》。
5、外来人员进入必须有专门的工作人员全面负责其行为安全。
6、未经主管领导批准,禁止将机房相关的钥匙、保安密码等物品和信息外借或透漏给其他人员,同时有责任对保安信息保密。对于遗失钥匙、泄漏保安信息的情况即时上报,并积极主动采取措施保证机房安全。
7、机房人员对机房保安制度上的漏洞和不完善的地方有责任及时提出改善建议。
8、绝不允许与机房工作无关的人员直接或间接操纵机房任何设备。
9、出现机房盗窃、破门、火警、水浸、110报警等严重事件时,机房工作人员有义务以最快的速度和最短的时间到达现场,协助处理相关的事件。
七、机房用电安全管理
1、机房人员应学习常规的用电安全操作和知识,了解机房内部的供电、用电设施的操作规程。
2、机房人员应经常学习、掌握机房用电应急处理步骤、措施和要领。机房应安排有专业资质的人员定期检查供电、用电设备、UPS设备。
3、机房人员应定好UPS放电计划,对UPS的放电时长做出准确的评估,并做出更换或修复UPS计划报告相关人事。
4、运维人员定期检查UPS各项运行参数、负载、电池容量是否正常,如有异常,应及时调整处理,并做好记录。
5、严禁随意对设备断电、更改设备供电线路,严禁随意串接、并接、搭接各种供电线路、严禁把电源排插散落在地。发现用电安全隐患,应即时采取措施解决,不能解决的必须及时向相关负责人员提出解决。机房内的电源开关、电源插座要明确标出控制的设备。
6、在使用功率超过特定瓦数的用电设备前,必须得到上级主管批准,并在保证线路的保险的基础上使用。
7、在发生市电报警要尽快赶往机房查看,并通告相关人员。事件处理完后,应及时复位市电报警设备。
8、在外部供电系统停电时,机房工作人员应全力配合完成停电应急工作。当需要发电机发电时,应计算好机房用电功率合理选择发电机型号发电,严禁发电超负载供电。
9、定期(不长于三个月)对供电设施进行检测与检修,保障供电正常。
八、机房空调管理
1、为保证设备良好的工作环境,应保持合适的机房温度和湿度,机房温度应保持在22℃--26℃,机房湿度应低于70%。
2、空调运行时,巡检人员按时检查各项运行参数、状态是否正常,如有异常,应及时调整处理,并做好记录。
3、定期进行空调机的清理,防止因散热不良造成空调的工作异常。
4、配备备用电风扇,以防止空调出现故障时机房温度的快速上升。定期进行备用电风扇可用性检查。
5、每年春秋换季期对空调系统进行全面的检查保养,确保机组的正常运行。
6、每天巡检一次,确保空调系统正常运行,如发现故障应及时上报。夏季要提高巡检频率,每天两次,上下午各一次。
7、机房维护人员应懂得进行一些必要的空调降温手段,以便在出现温度升高的状况下能通过辅助手段降低温度上升的速度。
九、机房消防安全管理
1、机房工作人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理、掌握消防应急处理步骤、措施和要领。
2、消防设备应放在显眼易取之处,任何人不能随意更改消防系统工作状态、设备位置。需要变更消防系统工作状态和设备位置的,必须取得主管领导批准。工作人员更应保护消防设备不被破坏。
3、每日对火灾重大风险点如蓄电池组进行巡检,检查内容包括电池是否漏水,有无发热异常,电极触点是否连接正常。
4、插座及蓄电池附近不得摆放纸箱、说明书等易燃物品。
5、应定期消防常识培训、消防设备使用培训。如发现消防安全隐患,应即时采取措施解决,不能解决的应及时向相关负责人员提出解决。
6、严禁在机房内吸烟和使用明火,如因线路或其他原因引起明火,应及时拨打119和通知相应负责人迅速解决问题。
7、定期检查消防设备状态,保证消防设备可用性。
十、机房应急响应
1、机房停电时,UPS设备将为机房设备提供电力支持,但UPS能够提供的电力有限,因此需要根据实际情况进行处理,具体如下:
在停电时,有短信报警机制通知到机房维护人员,维护人员应马上通知机房主管人员,并在一小时内赶回机房。
机房维护人员积极配合主管人员协调各供电电路运维方及时检查处理市电回路故障。
按照《基本业务服务设备列表》,只保留基本业务服务设备运行,对其余设备进行关闭。
当UPS电力不足时,应及时关闭所有设备,避免突然断电造成的系统设备故障。
2、当机房温度升高时,为保护各设备,需要采取相应的应急处理措施,具体如下:
达到温度阈值时,应有短信通知机制通知机房维护人员,维护人员一小时内到场,马上启用备用电风扇。
当机房温度超过28℃时,维护人员应立即通知主管人员并积极协调空调维护商尽快处理。
在温度超过35℃时,可以根据《基本业务服务设备列表》关闭非基本设备,只提供基本业务服务设备运行;
当机房温度超过40℃时,应当关闭所有系统设备运行。
3、火灾不像供电及空调故障那样存在一段缓冲期去处理或减少影响,对无人值守机房来说一旦发生火灾,势必导致重大财产损失。对于机房火灾应当是预防为主,因此必须重视每日的蓄电池组巡检。当机房发生火灾时,本着先救人,后救物的思想原则采取相应的应急处理措施,具体如下:
有报警机制通知到所属地区消防部门,并通知到机房维护人员及主管人员。并根据预先制定的火灾发生时联系人目录通知到位。
到场后立即断开电源,防止由于电源引起的火情进一步扩大。
寻找安全的地点监控火情,并积极配合消防人员应对火灾。
4、设备发生故障时,使用备用设备替换现有设备,并保证新设备配置和用户密钥与旧设备一致、保证新设备配置和数据与旧设备一致。
5、传输线路干路发生故障时,请及时联系网络供应商,对线路进行检测维修。
6、发生不可预见的紧急请况时,及时向主管人员汇报,并与相关技术人员联系,采取妥当的应急办法进行应急处理。
关于运维事件单变更注意事项和的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 运维事件单变更注意事项的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于、运维事件单变更注意事项的信息别忘了在本站进行查找喔。发表评论
评论列表