AIOps 一场颠覆传统运维的盛筵
1064
2023-02-17
本文目录一览:
数字化时代,银行业务的快速发展,计算机的系统数量和部署规模均呈快速增长态势,且加上应用系统的微服务化,系统间的关联更为复杂,也相应提升了对运维系统的要求与难度。虽然银行内建立了较为全面的监控体系,但是面对千百万的告警风暴时,故障定位解决问题十分困难,特别不利于系统安全、持续、稳定运行。
数字化转型中,以用户为中心是驱动金融行业的核心基础。所以,对于像银行、证券公司这样拥有海量运维数据的金融行业来说,智能运维势在必行。采用先进的运维手段(智能运维)则是企业不断前行的源源动力。
说一个我们正在服务的客户案例吧,客户是一家商业银行。
这家商业银行通过擎创科技提供的夏洛克AIOps解决方案,建设了一套智能运维数据分析系统,集中收集和分析十多个系统的运维数据,包括应用系统日志、告警、性能指标、交易指标和网络性能指标等,并通过机器学习算法实现指标异常检测、关联分析和告警收敛,以此加快问题定位效率,保障系统运行。为了有效提高对异常情况的监测和未来趋势预测,提前发现系统隐患,该商业银行通过擎创夏洛克AI实验室,训练并生成了基于业务场景的多类算法,实现系统的单指标异常检测,极大降低系统故障发生的概率。
与此同时,该商业银行还用了擎创夏洛克指标解析中心和告警辨析中心,通过此实现多维指标关联分析,帮助快速发现和定位系统问题,提升排障效率;实现告警收敛,降低告警风暴,加快定位时间。目前告警压缩率达到了80%以上,运维人员的告警处理效率明显提高。实现了IT系统运维的智能化,为业务健康运转提高强力保障。
其实,擎创科技此前便服务过众多银行类客户,如中国银联、交通银行、浦发银行和宁波银行等,帮助其构建了智能化的运维平台,提升了客户运维效率,且目前很多项目都进入到二期、三期建设阶段。
大学数据中心机房运维风险的识别和应对论文
无论是身处学校还是步入社会,许多人都写过论文吧,论文是探讨问题进行学术研究的一种手段。还是对论文一筹莫展吗?下面是我整理的大学数据中心机房运维风险的识别和应对论文,欢迎阅读,希望大家能够喜欢。
摘要:
高校数据中心机房作为学校重要的场所,为学校日常教学办公提供重要的网络保障。如何保障数据中心的安全,已经变得越来越重要。本文通过研究风险管理在高校数据中心机房的应用研究。以我校数据中心机房运维项目为例,进行风险管理各方面的研究。旨在提高机房管理人员管理能力,保障数据中心机房安全。
关键词:
风险识别;风险应对;数据中心机房;
引言:
数据中心机房是学校数据汇聚交互的核心场所,所有接入校园网的数据都是通过数据中心机房进行交互。信息化大背景下,高校数据中心机房为师生提供更加便捷的服务,在教学、科研、办公等方面都有体现。
近些年来,随着数字校园,智慧校园的推进,全国各高校的数据中心机房规模不断发展。“一表通系统”上线,“最多跑一次”改革,高校越来越多的业务都转到校园网上,办公流程的简化,业务流程的电子化,极大地方便了广大师生。但同时,伴随着不断增长的业务,扩增的机房设备,我们对数据中心的要求不断提升,日常的运维管理面临的风险也越来越大。
1、高校数据中心运维引入风险管理的意义
数据中心机房是全校网络的核心区域,包括服务器,IPS设备,业务系统等,是一系列硬件软件设备的总和。一般高中小学校不会涉及数据中心机房,而大学的数据中心机房则不同,需要专人管理。数据中心机房的日常维护绝不是简单的设备维修,而是一项长期且细致的工作,涉及的内容很多,包括机房设备维修,系统升级,安防检查等。因此我们需要引入一整套科学合理的管理方法来应对风险。
数据中心机房的风险管理涉及内容很多有:风险识别,风险分析,风险应对等。其中,风险识别就是识别出潜在的风险,例如:机房火灾,漏水,停电等,是风险管理中最重要的内容之一,是确定潜在风险并分析找出应对方法的前提。所以一般对于风险识别的内容,我们会花费大量的时间来收集汇总,识别中会用到的德尔菲法,头脑风暴等方法。在数据中心日常运维中,针对识别出的高风险因素,我们需要制定相关的策略,包括消极和积极2方面的风险应对策略。风险存在是必然,我们需要积极引入风险管理机制,才能在出现问题时候迅速解决。
2、数据中心机房运维的风险识别
每个项目特性是千差万别,项目独特性决定项目实施过程存在很多不确定性,尽可能识别出不确定因素,是确保项目成功的重要因素[1]。风险识别不仅是风险管理的核心部分,更是基础内容。风险识别就是运用各种科学方法,识别项目的潜在风险,识别引发潜在风险的原因以及可能引发的`后果。特点:风险识别覆盖整个项目的生命周期。项目管理过程中,需要对风险进行反复地识别。风险识别的方法很多,包括德尔菲法,头脑风暴,专家判断等。
为了尽可能全面地识别出潜在的风险,结合实际情况,对数据中心机房风险识别步骤包括3步,第一步,进行工作分解结构WBS,目的就是为了更直观地进行风险识别。第二步,风险收集,针对运维项目,需要组织人员进行现场勘查,发现存在的问题,收集数据中心的资料。针对运维现状,组织全体人员进行头脑风暴法识别潜在的风险,再利用专家调查法对收集的潜在风险进行识别。第三步,风险确认,组织相关人员进行总结分析归纳,最终得到运维项目风险登记册。
(1)工作分解结构WBS
数据中心运维项目按照一定原则进行工作分解,其目的是为了给风险识别提供依据。首先,组织运维项目的各部门的负责人员,技术人员等进行现场勘查,摸清机房现状。按照整体机房运维的思路做好地勘工作,地勘需要记录各个领域的工作,并进行工作分解。
(2)风险收集
本次运维项目的风险收集采用头脑风暴会议。在会议之前,需要收集项目相关资料,包括项目技术文件,运维记录,机房资料,合同等。然后提前将地勘记录和收集到的项目资料发给参与会议的人员,确保参会人员能提前充分了解项目内容。会议针对运维项目期间可能存在的风险,进行充分的讨论和汇总。由项目经理担任本次会议支持人,在主持人的推动下,与参会人员就项目的风险集思广益。所有参与人员均有平等发言权,对潜在的风险提出自己的观点。最后将会议的内容进行整理汇总,初步得到机房运维的风险因素。
(3)风险确认
风险确认即将收集汇总的风险因素发给专家小组,由专家小组再次确认,记录整理并完成风险识别。专家小组包括各行业专家、部门负责人等。专家小组通过了解数据中心机房运维项目的基本情况,背景等,对头脑风暴会议收集的风险因素进行多次征询,直至达成一致意见,完成项目风险识别。
最终将运维项目风险分为5类,包括设备风险,业务风险,运维管理风险,自然风险,其他风险。设备风险包含:服务器风险,IPS设备风险,环控设备风险等。业务风险包括:特大网络故障风险,一般业务故障风险,业务质量下降风险等。运维管理风险包括:团队管理风险,沟通交流风险,人员管理风险等。自然风险包括:火灾,水灾,电磁干扰等,其他风险包括:合同风险,需求变化风险,人员技术风险等。
3、数据中心机房运维的风险分析
风险分析从2方面进行,第一个是定性风险分析,定性分析是指采取一定手段,综合评估分析存在的风险概率以及它的影响程度,并对风险按风险程度排序。同时为下一步分析提供依据。本次运维项目研究所用到的分析工具有概率-影响矩阵,风险分类,专家判断法等。定性风险分析过程作用是为了降低项目的不确定性,并重点关注高优先级的风险,有利于后续针对性开展风险应对。
概率-影响矩阵(P-I矩阵)是经常使用的工具,它是针对不同程度的风险,进行分级和排序,便于下一步进行定量分析及应对。在概率-影响矩阵中,一般将横坐标和纵坐标从低到高划分为5个标准,用数值0.1、0.3、0.5、0.7、0.9表示,一共划分为25个方格,方格内数字表示风险值R,公式为R=P*I。R数值越低,概率越小,影响程度越小。R数值越高,概率越高,影响程度越大。概率高,影响程度高的区域,一般在右上角,属于高风险,需要采取重点措施,并采取积极地应对策略。概率低,影响程度低的区域,一般在左下角,属于低风险区域,一般列入待观察风险清单,一般不需要采取积极管理措施,监测即可。
第二个是定量风险分析,它是对定性分析过程中,对项目影响很大,风险等级很高的风险进行更加具体的分析。它是对风险事件的影响程度分析,一般高风险事件分配高数值,低风险分配低数值。定量风险分析的目的是为了确定重大的风险,同时提醒管理人员对高风险,进行密切关注,做好应对准备。
4、数据中心机房运维的风险应对
风险应对过程是在风险分析之后,针对存在的风险,在分析风险概率及其影响程度基础上,制定一系列措施降低风险、提高有利机会。通过科学合理的管理理论和措施,可以有效规避和降低项目风险。风险应对措施必须及时有效,并制定多种应对方式,择优选择。
风险应对方法有很多,针对已总结的风险,结合数据中心项目的具体情况制定相关的应对策略包括:风险规避,风险转移,风险预防,风险减轻。
(1)风险规避:风险规避是为了达到项目目的,改变原来计划,从而规避风险,减少风险带来的影响。如:调试项目范围,利用多种手段达到目的等。在机房检修的时候,必须秉承着不影响机房正常运行的原则。检修UPS蓄电池,进行放电时,不能影响机房正常运行。检修空调时,应该要一个一个进行检查,不能同时关闭所有机房空调,否则会影响机房正常散热,导致服务器出现故障。维护业务服务器时,必须不能影响其他业务的运行。
(2)风险转移:风险转移目的是将风险转嫁给第三方人员,包括风险的影响和责任。在数据中心机房运维中,常见的风险转移就是第三方公司维保。因为数据中心机房的重要性,所以必须保证机房7*24小时都要稳定运行。单单依靠网络中心一个部门是无法保障机房的一年365天的安全,还必须要有其他部门和第三方运维公司的配合。现在高校的数据中心机房都会有第三方公司运维,包括服务器的维保,环境监控的维保,网络安全维保等。转移工具包括合同、履约保证协议、保密协议,保证书等。通过签署合同或协议,能将风险的责任转移给第三方。
(3)风险预防:风险预防就是针对存在的风险,制定应急预案,避免风险的发生。施工或运维过程中一旦出现风险或者发现目标与预期有较大偏差时,即可按照应急方案采取相应措施。机房定期进行应急演练是必要的,针对运维情况制定不同的应急演练内容,如:特大网络故障,一般业务故障,火灾等。有利于提高运维人员对突发安全事件的响应与处置能力,保障学校机房安全、持续和稳定运行。机房内不需要的设备必须及时清理,必须建立定期检查制度,对相关设备进行详细检查[2]。
(4)风险减轻:风险减轻就是减轻风险事件所带来的影响,减低风险发生的概率。它分为两个方面,第一个是已经发生的风险,要采取积极的措施减少风险带来的影响。第二个是还没发生的风险,要采取积极措施减少发生概率。例如:在机房整理线缆时候,必须按照行业规范,进行走线,并按照统一标准添加标签,确保线材整洁。这样能减少后期维护的成本,当出现线路问题时,能在第一时间找到问题线路。此外,在机房配备UPS电源,也是为了保护服务器设备,在断电情况下能继续工作一段时间,减少服务器突然断电引发的一系列问题。
5、结语
数据中心机房承担着高校全部的信息化业务,运维内容包括服务器,IPS设备,业务系统等软硬件设备,涉及多个部门和第三方运维公司。因此,高校数据中心机房运维是一个长期、复杂的项目,需要持续性地管理。
风险管理作为一种科学的管理手段,在数据中心机房的运维中的应用有着重要的意义,通过风险管理研究,识别、分析和应对等,我们可以清晰地了解整个运维项目存在的风险。识别潜在风险,通过科学的风险分析手段,应对不同程度的风险。
参考文献
[1]郑渝莎.浅谈通信机房搬迁项目的风险管理[J].江西建材,2017(13):261+263.
[2]王欣.信息机房运维及其管理的主要策略分析[J].计算机产品与流通,2020(01):131.
;运维项目管理流程
导语:没有任何一个项目能轻而易举应用运维风险事件管理的成功。但是你却可以努力去争取更大的成功率应用运维风险事件管理,靠的便是精心设计、并且行之有效的流程管理。下面我为你整理的运维项目管理流程,希望对你有所帮助应用运维风险事件管理!
1、生命周期与方法论
这是项目的纪律,为项目开展划出应用运维风险事件管理了清晰的界限,以保证项目进程。生命周期主要是协调相关项目,而方法论为项目进程提供了持续稳定的方式方法。
生命周期通常由项目的阶段组成(包括:开始、规划、执行/控制、完成),或由工作的重复周期构成。项目生命周期的细节一般都会随具体业务、项目、客户要求而改变。因此即使在同一个项目中,周期也会有多种可能的变化。对工作细致度、文件管理、项目交付、项目沟通的要求体现在生命周期标准和考核的方方面面。大项目的阶段一般更多更长,而小项目的阶段少,考核点也少。
与生命周期类似,项目方法也因项目而易,细节关注程度高。产品开发项目的方法经常涉及使用何种工具或系统,以及如何使用。信息技术项目的方法包括版本控制标准、技术文档管理、系统开发的各个方面。
项目方法往往不是由项目团队自行确定,而由公司为所有项目设定。采用与否,其实项目团队没有太多选择。公司管理层设定的方法本身代表权威,也是你作为项目领导获得项目控制权的一个途径。考虑项目方法某方面的作用时,始终要把握其对项目人员管理的效率,即在可能出现问题的地方争取正面效应。
2、项目定义
清晰的项目描述决定了你的项目控制能力,因为接下来所有工作都在描述范畴之内。不管你如何并为何要进行描述,你要对你的项目进行书面定义,让项目各方和项目组随时参考。
项目定义的形式和名称各式各样,包括:项目章程、提案、项目数据表、工作报告书、项目细则。这些名称的共同点在于,项目主管方和其他相关各方面从上而下地传达了他们对项目的期待。清晰的项目定义还包括以下方面:
项目目标陈述 (一小段文字,对项目交付成果、工期、预期成本或人力进行高层次的描述)
项目回报(包括商业案例或投资分析的回报)
使用中的信息或客户需求
对项目范围进行定义,列出所有预期的项目成果
成本和时间预算目标
重大困难和假设
描述该项目对其他项目的依赖
高风险、所需的新技术、项目中的重大问题
努力将尽可能多的具体信息,囊括在项目描述或章程中,并使其在项目主管方和相关方面获得认可,进而生效。
3、合同与采购管理
不管你在你的组织内有多大的影响力和权力,你对受雇于其他公司的项目成员的影响会比较小。虽然不一定普遍适用,但你可以尽量不将项目工作外包,这是提高项目控制力的一个技巧。
在考虑启用合同商或外部顾问之前,对整体采购流程进行重检。寻找有服务合同起草经验并可以帮助你的人。
建立成功的外包关系需要时间和精力,这些工作要及早着手。为了不误项目工期,你要及时做到所有细节到位,所有合同及时签订。你打算外包哪部分项目交付成果,对这部分工作的细化就是你实施项目控制的着手点。记录这些细化内容、评估和接收标准、所有相关要求、必要时间规划。项目定义信息一定要包括在合同之内,相关责任及早确定。和所有你考虑到的供应商讨论这些要求,这样你的项目期望才会在各方之间明晰。
4、项目规划、执行、跟踪
作为项目领导,通过制定有力的规划、跟踪、执行流程,你可以建立项目控制的基础。争取各方面的.支持,进而在项目内全面推广。
让项目组成员参与规划和跟踪活动,这可以争取大家的支持并提高积极性。睿智的项目领导往往大范围地鼓励参与,并通过流程汇聚大家的力量。当大家看到自己的努力以及对项目的贡献被肯定的时候,项目很快就从“他们的项目”变成“我们的项目”。当项目成员视项目工作为己任的时候,项目控制就会简单得多。较之于漠不关心的团队,此时的项目管理成功几率更大。运用项目管理流程也会鼓励项目成员的合作,这也让你的项目控制工作更加轻松。
5、变化管理
技术性项目中问题最集中的方面就是缺少对具体变化的管理控制。要解决这个问题,需要在项目的各方面启用有效的变化管理流程。
解决方法可以很简单,例如被项目团队、项目主办方、相关方认可的流程图。这提醒了项目人员,变化在被接受之前会进行细致地考察,并且提高了变化提案的门槛。
审查变化提案的时候,要注意该提案是否对变化有清晰到位的描述。如果变化提案的动因描述得不清不楚,该提案就要打回去,并且要求对变化所带来的益处进行定量评估。对于那些仅局限于技术解决方案的变化提案,要多打几个问号,因为提案人也许不能全面地判断问题。如果变化提案过多地关注问题的解决,而不注重实际问题,打回去并要求关注具体的业务形势。
最后,如果不接受某变化提案,一定要做到有理有据。而且,对项目时间、成本、精力等其他相关因素所受的影响,进行合理的估计。
6、风险管理
风险管理的流程能让你制定出全面的规划,找出潜在的麻烦,就风险问题的解决方法达成一致,根除严重的问题。
风险管理要做到事半功倍,就要与项目规划同时进行。进行项目工作分解安排时,注意对项目活动的不恰当理解;分配项目任务和开展评估时,寻找风险;资源匮乏或项目资源不足,或项目工作依赖于某一个人时,要知道风险的存在。分析项目工作将遇到的困难,鼓励所有参与规划的人在规划过程中,设想最坏的情况和潜在困难。
7、质量管理
质量管理提供了另一套搭建项目结构的流程,保证项目领导提出的工作要求一个不落地执行到位。项目质量的标准分两类:行业内实行的全球质量标准,公司或项目独有的质量标准。
如果你的公司实行或接受了质量标准,要注意该标准对你和你的团队有何要求。具体而言,这些标准会包括ISO 9000标准或六西格玛。进而确定质检清单、质控流程及相关要求,并将其与你的项目规划进行整合。项目必须遵守的书面步骤、报告、评估,对团队成员是强有力的推动,让大家步调一致。标准比你的临时要求更有效。
质量管理流程还能将项目要求与客户心声联系起来。不管你说什么,只要是在传递客户或用户的要求,你都要加以强调。市场调查、标杆分析、客户访谈都是评估和记录用户需求并确定项目要求价值的好工具。
8、问题管理
项目开展过程中问题的出现不可避免。在项目初期,在资源、工期、优先事项等其他方面为项目的问题管理确定流程。争取让团队支持及时发现、跟踪、解决问题的流程规定。建立跟踪流程,记录当前问题。问题记录信息包括:问题描述、问题特征或表现(用于沟通)、开始时间、责任人、目前状态、预计结束时间。
处理待解决问题的流程很简单,包括列出新问题的流程、定期复查待解决的问题、处理老问题的方法。对于没有太多组织管理权的项目领导而言,问题跟踪流程的力量在于让其把握了问题状态和进度的实时信息。一旦问题责任人承诺了问题解决的时限,你可以任意公布问题解决过程中的变数。不管问题责任人是本项目成员,还是其他项目或部门的成员,谁都不乐意随时将自己的大名置于人们质疑的目光中。问题清单的公开使得掌握该清单的人获得一定的影响力和控制力。
9、决策
项目管理时时有决策,快速得当的决策对于项目控制至关重要。即使项目领导掌握了控制权,完善的集体决策流程仍然裨益颇多,因为共同决策能获得更多内部支持,效果自然会更好。
项目工作中的决策绝非易事,项目组内纷繁复杂的观点让决策更加困难。项目各方认同的问题解决流程可以简化决策的过程,照顾各方要求。
尽早和你的项目组一起设立决策流程,或采用现有流程,或对现有流程做适当的修改。好的决策流程能为你的项目控制提供强有力的支持。该流程应该包括以下步骤:
清楚地陈述必须解决的问题。
吸纳所有需要参与决策或将会受该决策影响的成员参与决策过程,这样可以争取团队支持。
与项目组一道重审项目陈述,必要时进行修正,让每位成员获得一致认识。
针对决策标准(如:成本、时间、有效性、完整性、可行性),开展头脑风暴或讨论。选择那些与计划目标关联的、可执行、可供项目各方参考供决策之用的标准。
与项目组一道确定各标准的权重(所有标准的权重总和为100个百分点)。
设定决策的时限,规定用于调查、分析、讨论、最终决策的时间。
开展头脑风暴,在规定时间内尽可能多地产生决策想法。多方发展整个项目组都能接受的想法。
通过集体投票的方法进行筛选,至多确定六个考虑项进行具体分析。分析其与决策标准的契合度。
理性对待讨论中出现的异议。有必要的话,可增加决策标准。
根据评估和权重标准,将这些选项进行排序。
考虑采用首位选项的结果。如果没有异议,则结束讨论并开始实施决策。
将决策写入文件,并与团队成员及项目相关方面沟通决策结果。
10、信息管理
这项是非常关键的资源,如何管理值得仔细思考。有的项目使用网站和网络服务器,或信息管理系统,进行项目重要信息的存储。有的项目则使用群件来维护项目文件,并提供电子邮件等服务。
不管你用何种方式存储项目数据,要保证所有项目成员能随时获得所需信息。将最新的项目文件存储在方便查找的位置,进行清楚地标记,及时删除过时信息。
; 关于应用运维风险事件管理和运维事件处理流程的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 应用运维风险事件管理的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于运维事件处理流程、应用运维风险事件管理的信息别忘了在本站进行查找喔。发表评论
暂时没有评论,来抢沙发吧~