AIOps 一场颠覆传统运维的盛筵
679
2023-02-10
本文目录一览:
1、电话报修流程:
最传统的报修流程,由企业员工直接通过电话打给信息中心的值班人员,告知基本的故障原因,由值班人员填写报修工单(包括故障发生时间、物理位置、IP地址、故障原因等),填写完毕提交后,Apex OSSWorks将根据故障类型自动将此工单派发到相应运维组(如网络设备组、服务器组、数据库组、应用系统组等)的一线运维技术员。
一线运维技术员可选择电话支持或者是上门服务的方式与用户沟通解决,如仍然无法解决该故障,将进行工单升级转派,由技术水平更高一级的专家(或者信息中心主任)来解决。最终故障解决完后将解决方案保存到运维知识库中,并进行用户回访满意度调查。
2、Apex网管系统报修流程:
该流程主要是处理严重的网络故障或设备硬件故障,Apex网管系统通过智能阈值技术监测所有网络设备及服务器的性能状态,而一旦出现负载过大、性能低下、链路中断或者设备宕机的故障,将由Apex网管系统自身生成一个报修工单,并根据故障原因类型自动派发给相应运维组的一线运维技术员。
由Apex OSSWorks自动派发后,后面故障处理流程同1,最终也要形成运维知识库,不过不用进行用户回访了。
3、自助运维服务台报修流程:
该流程为最理想最具效率的故障报修流程。在此流程报修之前,用户或企业员工会先登陆到Apex 自助运维服务台去进行相关网络的自查,包括端口链路检查、参考自助FAQ等等,这样将会屏蔽掉决大多数的用户故障。
而碰到棘手的问题,通过自助服务台也无法解决的故障,用户可以填写报修单进行故障申告,Apex OSSWorks运维平台将根据故障类型自动派发给相应运维组的一线运维技术员。
由Apex OSSWorks运维平台自动派发后,后面故障处理流程同1,最终也要形成运维知识库,并且用户也可以在自助运维服务台里看到自己申请工单的处理进度,问题解决后还需要填写满意度调查。
事件管理流程大概如下:当一个事件输入运维事件管理流程的输出的时候运维事件管理流程的输出,首先要对事件进行检查、定位。检查事件的时候要与它不断交互运维事件管理流程的输出,明确它的影响范围和紧急程度,还要进行初步的归类评估。服务台(ServiceDesk)是事件的唯一入口,它接收事件后,操作人员通过查阅CMDB〔配置管理数据库)进行处理。
1.事件的查明和记录
服务台记录一些标识客户的基本信息,如姓名、工作地点、电话号码等,而事件管理记录详细的事件信息,如事件发生的时间、受事件影响的服务等。这样做的目的是便于确认事件的影响,问题管理可以根据这些信息查找事件原因,密切跟踪事件进展。
首先,当用户、服务台工作人员或其他IT部门人员发现或系统检测到某系统发生事件时,就将其报告给服务台,服务台将基本信息输入事件数据库并报告给事件管理人员。通常所有的事件都是先报告给服务台,再由服务台工作人员将其输入事件数据库,服务支持小组是不允许直接记录事件的。
其次,事件管理人员给事件一个唯一的编号(事件单号),记录一些基本的事件分析信息(时间、症状、位置、用户、受影响服务、硬件等),并补充其他的事件信息(与用户的交互信息和配置管理数据库等。
再次,事件管理人员根据服务台提供的信息和事件数据库信息判断此类事件是否与已有的事件相同或类似,如果有就更新事件信息或建立原事件的从属记录,并在必要时修改原事件的影响度和优先级,如果没有则创建新事件记录。最后,事件管理需要判断事件是否严重,如果严重就先向管理层报告并告知用户有关情况,再采取进一步行动,如果不严重就直接进入下一步的事件初步归类和支持。
2.初步归类和初步支持
经过第一步的事件查明和记录,可从用户处获取的事件信息基本上已得到,事件管理数据库已经根据这些信息进行更新,接下来就是事件的初步归类和初步支持。这里强调初步,就是为运维事件管理流程的输出了能够尽可能快地恢复用户的正常工作,尽量避免或者减少事件对IT服务质量的影响。
归类的目的是发现事件原因以便采取相应行动。一般来说,许多事件是重复出现的,因此,当某个事件再次出现时,只需要根据已有的经验和措施采取行动即可:,当新的事件出现时,就有一个与其问题和知名错误(知识库)相匹配的过程,如果匹配成功就可直接用已有的方案将其解决,而不需要进一步调查,否则就要继续进行下面提到的其他几个步骤。
服务台如果没有成功解决事件,就将事件转交给二线、三线支持处理,然后负责记录事件并联系各支持小组,采取必要的措施以确保用户满意。如果碰到未出现过的事件或事件解决过程非常复杂,就必须对事件进行调查和分析。
3.事件调查和分析
事件在第一阶段和第二阶段没有圆满解决时,专家支持小组应介入处理过程,对其进行调查和分析。
一旦事件被分派给某个支持小组,他们应当完成以下工作:确认接收事件处理任务,同时指定有关日期和时间以保障正常更新事件状态和历史信息,经过服务台及时通知客户事件最新进展,说明事件当前所处的状态;尽可能快地把发现的权宜措施提供给服务台和客户;参考知名错误、问题、解决方案、计划的变更和知识库等对事件进行评审;必要时要求服务台根据协议的服务级别,重新评价事件影响度和优先级,并在必要时对其进行调整;记录所有相关信息,包括解决方案、新增的或修改的分类;将所有相关事件的更新、花费的时间以及处理结果反馈给服务台以让其终止此类事件。
4.解决事件和恢复服务
在分析和调查事件后,支持小组根据更新的事件信息,提议的权益措施和解决方案以及有关的变更请求,解决事件并恢复服务,同时更新有关事件信息
5.事件终止
解决事件和恢复服务后,事件到达终止阶段。这个阶段输入的是上一阶段更新后的事件记录和已解决的事件,采取的行动主要是和客户一起确认事件解决是否成功,输出的结果为更新的事件信息和事件记录。在事件解决后,服务台应该确保以下内容:有关用于解决事件的行动的信息是准确的、易懂的;根据事件产生的根本原因对其归类;客户同意事件解决方案和方案的执行及最终结果;详细记录事件控制阶段的所有相关信息,如客户是否满意和满意度如何,处理事件所花费的时间,事件终止的日期和时间。
发表评论
评论列表