AIOps 一场颠覆传统运维的盛筵
917
2022-12-25
本文目录一览:
事件管理流程大概如下:当一个事件输入的时候运维事件管理过程,首先要对事件进行检查、定位。检查事件的时候要与它不断交互运维事件管理过程,明确它的影响范围和紧急程度,还要进行初步的归类评估。服务台(ServiceDesk)是事件的唯一入口,它接收事件后,操作人员通过查阅CMDB〔配置管理数据库)进行处理。
1.事件的查明和记录
服务台记录一些标识客户的基本信息,如姓名、工作地点、电话号码等,而事件管理记录详细的事件信息,如事件发生的时间、受事件影响的服务等。这样做的目的是便于确认事件的影响,问题管理可以根据这些信息查找事件原因,密切跟踪事件进展。
首先,当用户、服务台工作人员或其运维事件管理过程他IT部门人员发现或系统检测到某系统发生事件时,就将其报告给服务台,服务台将基本信息输入事件数据库并报告给事件管理人员。通常所有的事件都是先报告给服务台,再由服务台工作人员将其输入事件数据库,服务支持小组是不允许直接记录事件的。
其次,事件管理人员给事件一个唯一的编号(事件单号),记录一些基本的事件分析信息(时间、症状、位置、用户、受影响服务、硬件等),并补充其他的事件信息(与用户的交互信息和配置管理数据库等。
再次,事件管理人员根据服务台提供的信息和事件数据库信息判断此类事件是否与已有的事件相同或类似,如果有就更新事件信息或建立原事件的从属记录,并在必要时修改原事件的影响度和优先级,如果没有则创建新事件记录。最后,事件管理需要判断事件是否严重,如果严重就先向管理层报告并告知用户有关情况,再采取进一步行动,如果不严重就直接进入下一步的事件初步归类和支持。
2.初步归类和初步支持
经过第一步的事件查明和记录,可从用户处获取的事件信息基本上已得到,事件管理数据库已经根据这些信息进行更新,接下来就是事件的初步归类和初步支持。这里强调初步,就是为运维事件管理过程了能够尽可能快地恢复用户的正常工作,尽量避免或者减少事件对IT服务质量的影响。
归类的目的是发现事件原因以便采取相应行动。一般来说,许多事件是重复出现的,因此,当某个事件再次出现时,只需要根据已有的经验和措施采取行动即可:,当新的事件出现时,就有一个与其问题和知名错误(知识库)相匹配的过程,如果匹配成功就可直接用已有的方案将其解决,而不需要进一步调查,否则就要继续进行下面提到的其他几个步骤。
服务台如果没有成功解决事件,就将事件转交给二线、三线支持处理,然后负责记录事件并联系各支持小组,采取必要的措施以确保用户满意。如果碰到未出现过的事件或事件解决过程非常复杂,就必须对事件进行调查和分析。
3.事件调查和分析
事件在第一阶段和第二阶段没有圆满解决时,专家支持小组应介入处理过程,对其进行调查和分析。
一旦事件被分派给某个支持小组,他们应当完成以下工作:确认接收事件处理任务,同时指定有关日期和时间以保障正常更新事件状态和历史信息,经过服务台及时通知客户事件最新进展,说明事件当前所处的状态;尽可能快地把发现的权宜措施提供给服务台和客户;参考知名错误、问题、解决方案、计划的变更和知识库等对事件进行评审;必要时要求服务台根据协议的服务级别,重新评价事件影响度和优先级,并在必要时对其进行调整;记录所有相关信息,包括解决方案、新增的或修改的分类;将所有相关事件的更新、花费的时间以及处理结果反馈给服务台以让其终止此类事件。
4.解决事件和恢复服务
在分析和调查事件后,支持小组根据更新的事件信息,提议的权益措施和解决方案以及有关的变更请求,解决事件并恢复服务,同时更新有关事件信息
5.事件终止
解决事件和恢复服务后,事件到达终止阶段。这个阶段输入的是上一阶段更新后的事件记录和已解决的事件,采取的行动主要是和客户一起确认事件解决是否成功,输出的结果为更新的事件信息和事件记录。在事件解决后,服务台应该确保以下内容:有关用于解决事件的行动的信息是准确的、易懂的;根据事件产生的根本原因对其归类;客户同意事件解决方案和方案的执行及最终结果;详细记录事件控制阶段的所有相关信息,如客户是否满意和满意度如何,处理事件所花费的时间,事件终止的日期和时间。
(1)建立自动化运维管理平台
IT运维自动化管理建设的第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控运维事件管理过程,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容运维事件管理过程,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如运维事件管理过程,在自定义周期内进行自动触发完成对IT运维的例行巡检运维事件管理过程,形成检查报告。包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。
(2)建立故障事件自动触发流程,提高故障处理效率
所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时会触发相关的事件,同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。
(3)建立规范的事件跟踪流程,强化运维执行力度
IT运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。
(4)设立IT运维关键流程,引入优先处理原则
设立IT运维关键流程,引入优先处理原则是指要求CIO定义出IT运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对企业有什么影响和意义。同时,在设置自动化流程时还需要引入优先处理原则,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件。
总之,实现IT运维的自动化管理是指通过将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。
IT运维管理包含:
一、设备管理:对网络设备、服务器设备、操作系统运行状况进行监控,对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、WEB等的监控与管理;
二、数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;
三、业务管理:包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的CSF(关键成功因素Critical Success Factors)和KPI(关键绩效指标Key Performance Indicators);
四、目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;
五、资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;
六、信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127中控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;
七、日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。
IT运维是IT管理的核心和重点,也是内容最多、最繁杂的部分,每一个子系统中都包含着十分丰富的内容,也因此被很多人称之为“IT运维管理就像一个什么都能装的箩筐”。但通过梳理,你会发现,其实IT运维管理也有依有据,有规律可寻。
IT 运维管理是时下 IT 界最热门的话题之一.随着 IT 建设的不断深入和完善,计算机硬软件系 统的运行维护已经成为了各行各业各单位领导和信息服务部门普遍关注和不堪重负的问题.由于这是一个随 着计算机信息技术的深入应用而产生的新课题,因此如何进行有效的 IT 运维管理,这方面的知识积累和应 用技术还刚刚起步.对这一领域的研究和探索,将具有广阔的发展前景和巨大的现实意义。
所谓 IT运维管理,是指单位 IT 部门采用相关的方法、手段、技术、制度、流程和文档 等,对IT 软硬运行环境(软件环境、网络环境等)、IT 业务系统和 IT 运维人员进行的综合管理。
企业将IT部门的职能全部或部分外包给专业的第三方IT外包公司管理,集中精力发展企业的核心业务。简单的说就是企业在内部专职IT运维人员不足或没有的情况下,将企业的IT外包服务流程,包括全部办公硬件、网络及外设的维护工作转交给专业从事IT运维的公司来进行全方位的维护。
关于运维事件管理过程和运维事件分析的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 运维事件管理过程的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于运维事件分析、运维事件管理过程的信息别忘了在本站进行查找喔。发表评论
暂时没有评论,来抢沙发吧~