智能运维平台案例启发与反思(智慧运维的案例让我们明白)

来源网友投稿 1531 2023-01-23

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈智能运维平台案例启发与反思,以及智慧运维的案例让我们明白对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享智能运维平台案例启发与反思的知识,其中也会对智慧运维的案例让我们明白进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

智能运维管理平台是如何进行运维管理的?

IT运维从传统走向智慧,首先要经历数字化运维阶段,搭建数字运维中台既是实现运维数据有效治理的前提和基础,也是推进运维数智化转型的第一步。针对上述需求,擎创科技自主研发的擎创夏洛克AIOps智慧运营平台(如下图所示)可通过数字运维中台,对运维数据进行统一的采集存储和管理,即便面对高达100TB的日增数据量,也可进行秒级实时分析,为异常检测、根因定位等场景奠定坚实基础。


擎创夏洛克AIOps智慧运营平台架构


与传统运维方式相比,智能化运维最突出的优势是“数据大集中”,即基于数字运维中台建设,通过统一监控中心来集中管理和分析所有运维数据,并以业务视角观测运维数据的相关性,最终建立智能化场景来解决实际问题。擎创自主研发的智能运维产品——夏洛克AIOps智慧运营平台,刚好为此量身定制。它能以全局运营视角解读IT运维,在AI算法平台的支撑下实现包括精准告警、异常检测、根因定位和容量分析等场景,助力企业数字化业务高效、稳定和顺畅运行。


擎创夏洛克AIOps智慧运营平台架构


目前,夏洛克AIOps已在政府机关组织、银行业、证券保险业和交通运输业等行业场景中应用落地,极大节省了企业客户的人力成本和资金成本,提升了运维的有效性和质量。例如,通过为客户构建智能运维平台,轻松应对日增80TB的数据量,让客户平均故障修复时间(MTTR)缩短150%以上,运维总体拥有成本(TCO)下降80%以上。

系统运维工作总结5篇精选

当工作进行到一定阶段或告一段落时,需要回过头来对所做的工作认真地分析研究一下,肯定成绩,找出问题,归纳出 经验 教训,提高认识,明确方向,以便进一步做好工作,并把这些用文字表述出来,就叫做 工作 总结 。下面是智能运维平台案例启发与反思我给大家精心挑选的工作总结,希望能帮助到大家!

系统运维工作总结篇一

本月工作中,运维服务正常,所有电脑设备处于良好状态。保证服务质量,提高各科室人员对本月IT运维的满意度。对工作负起责任,任劳任怨,遵纪守法,服从管理,体现自智能运维平台案例启发与反思我价值,为___提供更好的服务。以下是6月所有故障进行总结分析和情况描述。

1、IT运维服务共49次

本月IT运维服务工作中,统计数据如下:

办公系统故障:6次,出勤:2次,打印机/复印机:9次, 电脑故障 :9次,中普数据:8次,其他故障:15次。

2、维修及耗材情况

(以上不含复印机耗材及易耗品)

5月份添加打印耗材6次总费用为:2660元5月硬件维修2次总费用为:3130元6月份添加打印耗材1次总费用为180元

3、IT运维服务描述和说明

一、盘点电脑资产,合理分配电脑资源

结合5月份所做的电脑资产盘点中,将年限已到期电脑进行帐上报废。由于6月份是重新续约,需对单位所有电脑设备进行清点,并分类设备哪些处于保修期内,或保修期外。共清点电脑主机:125台, 显示器 :141台, 笔记本 电脑:61台,打印机:55台。其中保修期内设备共有:142台,保修期外设备共有:252台。在4月份,本单位进新采购电脑30套(清华同方),打印机5台(OKI820B黑白)。为保证各科室日常办公和______需要,对______科室增加新打印机5台,目前使用状态良好。清点在本年报废年限已到的电脑共有38台,后期将在不影响用户使用的情况下进行更换。

二、______安防设备增加

在接到此任务前,幸好之前有过一些监控工程相关的技术知识。为增加监控需要实地考察当前安防系统设备情况以及线路走线管道。具体难度在于布线方面,其他技术方面基本解决,在这方面没什么太大技术含量只要稍微接触下基本都懂。天花板离地面较高,并且天花维护通道夹窄实施难度较大,由其工程部去完成。在技术方面,了解到摄像头的清晰度由线数决定,共购买了3个600线的摄像头,这是目前主流使用的。为了减轻布线工程人员负担,采用了集中供电器,就是所有摄像头都在同一个供电器上面供电12V。也就是在布线时不需要再另外从其他地方拉电线接插座。因为所有楼层的供电都是用集中供电的方面,供电器在楼层的某一处。决定录像质量的不是摄像头,而是录像机。录像机有几种录像模式。分别:cif、2cif、dcif、D1,也有更高。目前______安防设备有四台,录像质量全部为CIF,分辨率为352_288,保存天数约为48天,其中一台约为18天。

三、复印机、打印机耗材维修

6月份打印机耗材加粉量1台,复印机更换碳粉共有5次。打印机:整体性能稳定,整月来故障基本为零。复印机方面:负责保养公司每两星期上门进行保养,对复印机零件部位进行清理,其中检查一科,审理科复印机需要更换零件。检查一科由于鼓芯老化复印效果出现印痕,影响打印效果必须更换,总费用为840元,目前打印效果良好。审理科复印机损坏两个部件,经保养公司鉴定均为人为损坏,可能在取出卡纸的时候关侧板用力过猛,导致热敏鼓挂勾和双面导板断裂必须更换。此部件需要厂家定购,经两个星期后重新装上使用,总费用为:2290元。后续将定期查看是复印机状态,以确保发挥其性能。

四、出勤

出勤这工作是一个重要的学习机会,每次接到出勤任务前的一天我都会检查一次所有工具是否正常。一次在石井的出勤中,企业是一间电子商务企业,企业员工应该有100多人,在财务部门里有多套系统管理软件运作,就像工厂的整条生产线。售前,售后,发货,退货管理等。在系统里查询到数据有500万条以上,单导出一个数据表花费30多分钟,如此大数据量背后支持的服务器也不简单,在机房里有7台服务器,其中4台为linu_系统。在这里才发现自已的知识不足,对linu_系统接触甚少,对于一些命令早已忘记,而且那时已经是下班时期,管理员也没在场,最后搞到8点才完工。这次工作虽然辛苦,但收益良多,增长了不少见识,同时也发现自已的不足并在以后会不断努力学习,除了提高自已的技术水平外,更重要的是加强人员沟通。

系统运维工作总结篇二

为满足公司的快速发展,提升业务部门网络办公效率,提升it服务意识,it运维工程师按照sla协议承诺受理公司用户提交的it服务请求,包括用户使用网络、服务器、电脑终端及周边设备等设施过程中软硬件维护、事件处理、操作指导、资讯指导等,提供规范、稳定、持续、高质量的it可用资源和服务。

一、分担部门kpi指标,实现部门sla承诺

1、事件管理

a.通过主动积极服务或热线电话和邮箱受理等公司用户提交的it服务请求;

b.及时记录所有用户的事件,保证记录完整率达标;

c.在sla承诺的时间内响应用户的事件,响应及时率达标;

d对用户事件进行规范的分类、分级,并按事件级别不同要求进行响应和处理;

e.在承诺的时间内处理用户事件,或按规范传递给高一级技术支持,保证事件处理及时率达标;

f.合运用服务规范、沟通技巧和专业技能处理用户事件,并记录处理过程及方案,保证事件处理平均时间达标;

g.规范跟踪用户事件的处理进展,最终关闭事件或提交bug立项,保证事件解决率达标;

h.定期抽样回访用户和汇总用户意见,进行自我批判和持续改善用户满意度,保证用户满意度达标,用户投诉率在承诺范围以内;

i.承诺日平均事件处理数量,主动接管处理事件,高峰期需要灵活调整事件平均处理时长;

j.维值班人员按规范跟踪突发事件以及通报相关人员,保证跟踪正确率达标;

k.对本岗负责的事件跟踪处理,根据事件处理经验,提出合理化建议,将各类隐患消除在可控范围内;

l.养成良好工作习惯,做到事前有计划、事中有控制、事后有反馈、完成有记录;

2、配置管理

a.it资产配置管理:对it资产生命周期进行管理,包括分类统计、预购、选购审核、转移审核、报废审核,保证配置管理正确率达标;

b.建设案例库:累积和提炼工程师的事件处理经验制作成案例,并持续丰富运维案例库供查询,案例覆盖已知事件的比率达标,不断提高运维工程师工作效率;

c.it系统配置信息管理:定期更新网络及应用系统描述信息及技术支持信息配置,保证最新;

3、问题管理

a.对事件进行统计分析,找出疑难、重复发生的事件,纳入问题管理流程,分析问题产生的根本原因,确定可能解决的方案,需要修改网络或应用系统配置时提交变更申请触发变更管理流程。

4、发布管理

a.运维值班人员按规范统一发布信息部网络及应用系统正式公告、变更公告、特殊公告等,正确率达标;

二、其他运维工作

a.承担新员工导师工作,辅导新员工快速熟悉公司 文化 、环境、工作岗位及提升技能,为新员工顺利通过试用期提供保障;

b.持续反省自身的工作、总结工作中存在的不足和可改善之处,积极对部门运作提出改善建议;

c.积极参加公司重点应用项目的培训并按事件管理规范提供支持,如sap、oa系统等;

d.应部门发展需要在不影响现有工作的基础上主动承担其他项目支持,如网络、服务器,程控交换机等;

e.共享个人的技术经验,主持运维内部讲座;

f.积极参加信息部各类培训,有计划地进行自我学习,不断提升自身专业技能;

g.对重点维护设备进行定期巡检并记录,巡检及时率和正确率达标;

三、其他工作

a.担任it讲师,应其他部门邀请提供it技能培训,提高其他部门办公人员的it操作水平;

b.贯彻执行公司理念,积极完成上级分配的临时任务;

系统运维工作总结篇三

至20__年10月底,__有限公司在__公司的运维又届满一年的时间了。在这为期一年的运维工作当中,____的业务飞速发展,设备数量不断增加,人员的技术水平和业务知识有了显著的提升。我们的队伍在技术水平和管理经验上也有了本质的提高。

一、细致缜密的完成计划中的日常运维工作:严把质量;服务至上;严格要求;技术。

1.承接运维工作初始信息技术部的各位领导就对我们的运维工作给予厚望,并提出了认真完善服务水平的方针。我们在服务过程中严格按照这一要求,以对保障____的发展,对用户负责的精神,把“严把质量,服务至上”的原则贯穿于日常工作的各个环节之中。使本运维期过程中的客户满意度有了非常显著的提高,多次获得了用户的认可。

2.对于在工作中信息技术部提出的新要求、新方案,我们及时相应配合,本着“严格要求”的原则,对于提出的要求科学性的分析研究,及时提出完整周密的解决方案,并拟请用户试行或测试后实施。有力的保障了运维工作的及时有效性。

对于提高服务业务技术水平上,按照信息技术部的统一规划,按时完成一系列的既定培训计划。按照“技术”的原则,通过技术上的培训提高了业务水平和解决故障的效率;通过制定有效的安全机制和培训,健全了____信息外包人员安全机制;通过保密制度的培训使运维人员能够树立自觉维护____的信息安全防范意识;通过客户服务意识的培训提高了客户的满意度。

二、吸收先进经验,保质保量的完成运维的各项任务:运维期内主机、服务器、网络和桌面均没有发生严重的生产安全事故,对于一些潜在的威胁也都在得到信息技术部门的批示下,审慎周密的完成了整改工作。运用先进的技术和经验提高劳动效率和运维工作质量:

1.运用先进的运维工具提高劳动效率。通过监控软件随时保持信息的及时性、可控性,一旦发生问题可以迅速定位和修复。

2.经过信息技术部指导,我们在运维工作中大量了采用WEB2.0技术。使我们在高效完成运维工作的情况下,为____节约了大量的费用投入。

3.在工作的过程中注意新技术和新 方法 的学习和收集,对于有利于运维工作的成功方案及时整理并提交信息技术部。经过5年来的维护工作存储了大量的知识库信息。

三、适应任务需要,及时解决运维过程中的遇到的问题:

1.在运维过程中遇到突发问题及时与信息技术部门相关人员进行沟通,对于紧急情况的处理按照《应急预案》进行对应处理。在节假日安排主要人员进行值班和备勤,保障24小时均能及时相应。

2.在运维工作过程中,积极协助新增设备的各项实施工作,获得了信息技术部的肯定;在到货、验收、集成方案和安装调试过程中提供全程保障;对于数据的迁移、备份,各人按照自己的职责,在制定详尽的计划后、经过信息技术部的批准严格按照方案实施;

3.在配合一些公司的重大活动、事件时,为应对信息技术部人员不足的情况。我们一方面做好运维工作的情况下,另一方面派出部分或全部人员协助信息技术部的各项工作,以弥补其人力不足的状况;

4.对于机房的升级改造过程中积极配合,全程派员监理施工过程,及时出具各种施工方案和设计资料。施工完成后及时完善各类图表的变更、标识。

5.配合行政部门做好资产管理工作,对于资产管理系统派出专门人员参与学习,并对备份、升级方案及时提出自己的建议;对于办公室提出的节能减排的倡议积极响应,主动采取 措施 避免能源和材料的浪费;多次配合办公室进行资产统计、巡检、登记工作。

四、认真完成运维工作中的汇报、总结和知识积累工作:

1.《知识库》通过连续2年的整理已经形成了成体系的完整运维知识全集,方便了各类人员通过权限管理可以随时查找所需的运维信息,为提高运维工作效率提供了基础保障。

2.日常 报告 :共提交《运维日报》309份、《运维周报》52份、《机房温度周报》52份、《运维月报》12份、《运维半年报》一份、《运维年报》一份、《桌面工作记录单》1914份、《磁带存取记录表》12份。

3. 工作报告 :《变更报告》70份、《故障报告》5份、《数据安全保密措施报告》、《节日值班表》2份、《加班表》1份。另:《磁盘空间使用报告》等不定期报告;

4.图表:《电路电源拓扑图》、《机房及机架布局图》、《网络拓扑图》、《san环境拓扑图》、《电话配线架对应图》、《ip及工位、电话统计图》、《外包人员信息系统登记表》等。

5.其他报告:《外包人员信息安全管理建议》、《文件服务器使用管理建议》等。

通过以上的工作和措施,我公司顺利的完成了本期____的运维工作任务,从根本上满足了设备运维的各项要求。任务的圆满完成,有赖于信息技术部正确的领导和大力协助;仰仗于____健康发展的大好形势;得益于双方长期形成的信任与默契。

一年的时间很快过去了,在此向各位领导申请续约新的一年的运维合约。并且,在新的维护其中间维持上一年的全部合同条款,维持原来的运维价格不变。在新的运维期内,我们将保持冷静的头脑,继续发扬自身优势,多方弥补存在的不足,提高服务的水平和层次,在信息部的指导下,与各部门的同仁团结协作,大力配合,携手共进,高标准高质量完成各项运维任务。希望在新的运维期内能够更好的配合信息技术部的工作完成____的各项要求和任务。

望各位领导批准。

系统运维工作总结篇四

时间一晃而过,弹指之间,__年悄然而至,自从__年3月份刚进入公司,我是第一次接触公司、接触通信行业、接触公司网络管理及维护。虽然跟我的专业和技能都一致,以下就是运维工程师 年终总结 。

但所有的实际经验都是第一次,让我没有任何准备,同样也打消了任何顾虑,人生就是这样,所有的一切都是要从第一次开始,没有接触过、干过并不可怕,领导给了我机会,让我有了一次尝试、一次展现自己的平台,那么我一定会更加倍的努力做好工作才是的回报。并且也是对自己的一次肯定。经过一段时间的工作及陌生环境的磨合,专心钻研业务知识,努力提高理论知识和业务工作水平。遵纪守法,踏实工作认真完成领导交办的各项工作任务,使自己渐渐的融入和适应到新的工作环境中。

公司电脑日常维护工作

刚一开始接手工作的时候,发现公司大部分工作电脑都没有安装安全防护软件和升级系统补丁;员工随意安装系统及应用软件,致使公司局域网内病毒隐患严重、工作不稳定和系统崩溃,工作秩序被打乱,员工不严格要求自己,上班时间聊qq、玩农场、看娱乐网站等;为此公司和个人工作经常受到影响,工作效率降低。针对这种情况,我采取了以下措施:

1、先对公司员工进行一次基本知识培训,让员工了解到计算机的正确使用方法,病毒防范,重要文件的备份等。从而大大提高了员工对电脑使用的熟练程度。

2、先恢复良好的秩序。电脑使用时如发现故障和需更改设置,必须先报告公司运维人员,由专门人员来进行专业及针对化的操作,个人不能私自进行改动,进行这样做的目的避免由于人为的盲目操作使某一台电脑的故障影响整个局域网内的 其它 工作,使故障扩大化,并延长了解决问题的周期。

3、使员工使用统一的、经过安全测试的系统及应用软件,安装、设置统一的杀毒软件、防火墙等安全防护软件,且经过努力实践,并在每台机器上设定了自动系统补丁升级及定期查杀规则。

对于个人的关键性数据资料、邮件进行路径转移备份,使这些数据远离危险故障点,避免意外丢失所带来的严重后果。 操作系统 进行常规定期备份,便于事后的还原。

系统运维工作总结篇五

时间飞逝,一晃而过,弹指之间2018年已过去,作为公司的一名运维工程师,在公司领导及各部门各同事的帮助下,我顺利的完成了各项工作。在具体工作中,我努力做好服务工作。为了今后更好地工作,完善不足,特此将我2018年的工作情况做一个总结:

一、工作总结:

工作内容:我负责的工作主要有二个方面

(一)根据公司需求,负责公司网络应用系统,公司网站的开发,公司网络应用系统服务器的安装、配置和维护工作,公司网络应用系统用户帐号及权限的管理。

(二)负责公司网络和计算机软件的维护工作;公司计算机上软件的安装、调试及软件在使用过程中出现问题的解决;公司网络资源的权限分配;对公司人员提供必要的技术支持服务。

工作完成情况:

(一)完成公司网站的前期资料收集准备工作,制定出建站操作流程,此项目根据公司需求可随时启动,并短时间能够完成建站工作。

(二)完成公司资产管理系统的用户需求收集整理工作,并与多家软件公司多次沟通,最终根据需求选定在集团公司的用友财务平台上增加资产管理模块,达到资产管理与财务的时时同步。现项目因需集团财务平台的升级到新版本后才能增加我们所需的模块而暂时搁置,等集团平台升级后可再启动。

(三)完成公司oa系统的日常维护工作,调整oa论坛板块,增加公司新闻、意见建议、纪念建党九十周年、纪念辛亥革命一百周年等板块并及时更新其内容,让员工及时了解公司新闻动态,提高自身思想觉悟。完成对oa系统帐号的管理工作,赋予每个帐号相对应的使用权限,对新 入职 、 离职 员工帐号做到及时添加和删除,对各地托管资产管理员帐号按地区分别分组。

(四)在日常工作中及时响应了各部门的电脑软件、硬件、邮件、网络、打印机的维护。公司目前有近80多台电脑,由于机器较多且大多数为省店临近报废的旧机器,日常出现故障的情况较为常见,主要的电脑故障有:硬件故障,系统故障,网络故障,软件故障等,很多机器由于长期使用,导致系统中存在大量垃圾文件,系统文件也有部分受到损坏,从而导致系统崩溃,重装系统,另外有一些属网络故障,线路问题等。做到了尽可能的降低设备使用故障率,在其出现故障的时候,并做到了能在当地解决就当地解决,不能当地解决的也在最短的时间内给予了解决,保证了公司计算机的正常使用。

(五)对公司每台电脑安装防病毒软件,避免了病毒在公司局域网内自我复制相互传播,占用局域网的网络资源,甚至使得系统崩溃,丢失硬盘的重要资料等各种危害,并及时的对软件进行升级,定期的清除隔离病毒的文件夹,定期的对每台计算机系统补丁软件补丁进行更新,防止了病毒和黑客通过系统漏洞进行的破坏和攻击。

(六)对院内租赁产业重新布上网线,给租赁户提供网络服务并提供一定的计算机技术支持服务,给资产部租赁业务提供支持。

(七)协助安全主管整理打印安全回执表并分地区上传到oa系统的公共文件夹,供相关部门和领导随时调阅。

(八)参与office2017软件使用培训,提高自身业务水平。

二、查找不足 反思 改进

一年来,我始终坚持严格要求自己,勤奋努力,在自己平凡而普通的工作岗位上,努力做好本职工作,从不把情绪带到工作中。回顾2018年来的工作,我在思想上、学习上、工作上取得了新的进步。但我也认识到自己的不足之处:

1、自己的思路还很窄对现代 网络技术 的发展认识的不够全面,自己对新技术掌握速度还不够快。

2、有时候在一些突发故障比较集中时,没有分清轻重缓急,科学的去安排时间,导致少数问题处理不及时。

3、公司网络ip设置没有做系统规划,导致有时候有ip冲突而导致网络中断的情况发生。

三、提高认识持续进步

总结了过去,方能找到不足!对于下半年的 工作计划 ,在总结上半年工作的同时,针对自己不足之处,我也做出了初步设想:

1、在硬件条件允许的情况下安装网络流量检测软件,对局域网进行监测,及时发现网络故障和排错,使网络快速高效的运行。

2、在继续完善公司网络的同时,加强理论和业务知识学习,不断提高自身综合素质水平。把工作做到更好。

3、等省店全部搬离我们接管机房后,对公司所有电脑设备进行统一计算机名称,分单位部门给予不同的ip段并对硬件情况、ip地址详细登记造表方便管理。

4、领导交办的每一项工作,分清轻重缓急,科学安排时间,按时、按质、按量完成任务。



系统运维工作总结5篇精选相关 文章 :

★ 2020年it运维服务总结报告

★ 电工工作总结5篇精选

★ 运维工程师个人年终工作总结2020最新

★ 网络公司运维部个人工作总结

★ 中国电信运维部技术工作总结

★ 2019个人工作年度总结及计划【精选5篇】

★ 运维工程师个人工作总结

★ 运维工程师年终工作总结范文

★ 2019运维工程师年终工作总结

★ it维护人员2020年终总结标准模板

正泰Epower智能运维云平台 | 信息化管理走出降本增效“康庄大道”

截止2020年底我国光伏电站装机容量已达253GW智能运维平台案例启发与反思,连续多年居世界第一位,而在“双碳”目标智能运维平台案例启发与反思的宏伟愿景下,这仍旧只是一个起点。现阶段,随着补贴清退,光伏进入平价上网时代,面对光伏电站诸多复杂特性,如何对电站进行精细化管理,促进实现降本增效,成为电站资产持有者共同的关切点。

作为国内知名的智慧能源运营管理服务商,正泰智维秉持以客户为中心的服务理念,在正泰集团“一云两网”战略的规划下,自主研发智能运维平台案例启发与反思了正泰Epower智能运维云平台,利用大数据、云计算技术,对电站进行集中式监控、智能化管理,助推电站运维向数字化、精细化转型,实现降本增效。

故障预处理,保电站安全稳定运行

正泰Epower智能运维云平台通过链接在电站各主要设备上的数据监测装置,对电站生产数据进行实时监测,并利用正泰智维超7GW运维体量的大数据库模型,对运维电站数据信息进行分析诊断,可提前发现电站异常故障点,平台系统自动判定故障预警级别并派发巡检工单,让运维人员及时对相应异常设备故障进行预处理,前置故障响应时间,将隐患在萌芽阶段消除,从而极大降低因设备故障维修造成的发电收益损失。

数字化管理,让运维电站透明化

通过与APP联动进行工单处理,可自动规划并记录运维人员巡检路线,运维人员在现场进行电站故障处理时,同步在APP上上传故障处理图文信息,分类型将故障处理情况进行线上实时反馈。在PC端与APP端双重联动,对运维全过程进行线上线下联动,让运维管理数字化,让一线运维透明化。

精细化管理,做好运维每一小步

正泰Epower智能运维管理云平台,通过对电站进行设备资产管理、备品备件管理、工单管理、报表管理、行政人事等模块进行集中式智能化管控,促进无纸化办公。从运维管理上导入科学成熟的流程制度,细化电站综合管理,提高流程效率,为电站营造良好的生产环境。

正泰Epower智能运维管理云平台,集成正泰10余年新能源电站运营管理经验、行业领先的运维管理技术,并在大规模实际应用中不断优化完善,目前平台已应用电站数量超700座,累计接入容量超7GW,广泛应用于多种类型电站,平均效益增长达3%-5%,深受服务业主好评。

正泰Epower智能运维管理云平台,用心做好运维管理的每一小步,用信息化管理手段为您的电站数字化赋能,与您携手共创智慧能源新时代智能运维平台案例启发与反思

揭秘人工智能下的智慧运维实践—运维可视化

IT运维从诞生发展至今智能运维平台案例启发与反思, 自动化作为其重要属性之一,已经不仅仅是代替人工操作,更重要智能运维平台案例启发与反思的是深层探知和全面分析,工程师们更关注如何实现性能与服务最优化,同时保障运维效益最大化。
可视化对运维的影响,已经不仅仅是人与设备之间的关系,已经发展到智能运维平台案例启发与反思了面向客户服务,推动IT运维决策的层面。

IT运维平台算法背后的两大“神助攻”

智能运维(AIops)是目前 IT 运维领域最火热的词汇,全称是 Algorithmic IT operations platforms,正规翻译是『基于算法的 IT 运维平台』,直观可见算法是智能运维的核心要素之一。
本文主要谈算法对运维的作用,涉及异常检测和归因分析两方面,围绕运维系统Kale 中 skyline、Oculus 模块、Opprentice 系统、Granger causality(格兰杰因果关系)、FastDTW 算法等细节展开。

一、异常检测

异常检测,是运维工程师们最先可能接触的地方了。毕竟监控告警是所有运维工作的基础。设定告警阈值是一项耗时耗力的工作,需要运维人员在充分了解业务的前提下才能进行,还得考虑业务是不是平稳发展状态,否则一两周改动一次,运维工程师绝对是要发疯的。

如果能将这部分工作交给算法来解决,无疑是推翻一座大山。这件事情,机器学习当然可以做到。但是不用机器学习,基于数学统计的算法,同样可以,而且效果也不差。

异常检测之Skyline异常检测模块

2013年,Etsy 开源了一个内部的运维系统,叫 Kale。其中的 skyline 部分,就是做异常检测的模块, 它提供了 9 种异常检测算法 :

first_hour_average、

simple_stddev_from_moving_average、

stddev_from_moving_average、

mean_subtraction_cumulation、

least_squares

histogram_bins、

grubbs、

median_absolute_deviation、

Kolmogorov-Smirnov_test

简要的概括来说,这9种算法分为两类:

从正态分布入手:假设数据服从高斯分布,可以通过标准差来确定绝大多数数据点的区间;或者根据分布的直方图,落在过少直方里的数据就是异常;或者根据箱体图分析来避免造成长尾影响。

从样本校验入手:采用 Kolmogorov-Smirnov、Shapiro-Wilk、Lilliefor 等非参数校验方法。

这些都是统计学上的算法,而不是机器学习的事情。当然,Etsy 这个 Skyline 项目并不是异常检测的全部。

首先,这里只考虑了一个指标自己的状态,从纵向的时序角度做异常检测。而没有考虑业务的复杂性导致的横向异常。其次,提供了这么多种算法,到底一个指标在哪种算法下判断的更准?这又是一个很难判断的事情。

问题一: 实现上的抉择。同样的样本校验算法,可以用来对比一个指标的当前和历史情况,也可以用来对比多个指标里哪个跟别的指标不一样。

问题二: Skyline 其实自己采用了一种特别朴实和简单的办法来做补充——9 个算法每人一票,投票达到阈值就算数。至于这个阈值,一般算 6 或者 7 这样,即占到大多数即可。

异常检测之Opprentice系统

作为对比,面对相同的问题,百度 SRE 的智能运维是怎么处理的。在去年的 APMcon 上,百度工程师描述 Opprentice 系统的主要思想时,用了这么一张图:

Opprentice 系统的主体流程为:

KPI 数据经过各式 detector 计算得到每个点的诸多 feature;

通过专门的交互工具,由运维人员标记 KPI 数据的异常时间段;

采用随机森林算法做异常分类。

其中 detector 有14种异常检测算法,如下图:

我们可以看到其中很多算法在 Etsy 的 Skyline 里同样存在。不过,为避免给这么多算法调配参数,直接采用的办法是:每个参数的取值范围均等分一下——反正随机森林不要求什么特征工程。如,用 holt-winters 做为一类 detector。holt-winters 有α,β,γ 三个参数,取值范围都是 [0, 1]。那么它就采样为 (0.2, 0.4, 0.6, 0.8),也就是 4 ** 3 = 64 个可能。那么每个点就此得到  64  个特征值。

异常检测之

Opprentice 系统与 Skyline 很相似

Opprentice 系统整个流程跟 skyline 的思想相似之处在于先通过不同的统计学上的算法来尝试发现异常,然后通过一个多数同意的方式/算法来确定最终的判定结果。

只不过这里百度采用了一个随机森林的算法,来更靠谱一点的投票。而 Etsy 呢?在 skyline 开源几个月后,他们内部又实现了新版本,叫 Thyme。利用了小波分解、傅里叶变换、Mann-whitney 检测等等技术。

另外,社区在 Skyline 上同样做了后续更新,Earthgecko 利用 Tsfresh 模块来提取时序数据的特征值,以此做多时序之间的异常检测。我们可以看到,后续发展的两种 Skyline,依然都没有使用机器学习,而是进一步深度挖掘和调整时序相关的统计学算法。

开源社区除了 Etsy,还有诸多巨头也开源过各式其他的时序异常检测算法库,大多是在 2015 年开始的。列举如下:

Yahoo! 在去年开源的 egads 库。(Java)

Twitter 在去年开源的 anomalydetection 库。(R)

Netflix 在 2015 年开源的 Surus 库。(Pig,基于PCA)

其中 Twitter 这个库还被 port 到 Python 社区,有兴趣的读者也可以试试。

二、归因分析

归因分析是运维工作的下一大块内容,就是收到报警以后的排障。对于简单故障,应对方案一般也很简单,采用 service restart engineering~ 但是在大规模 IT 环境下,通常一个故障会触发或导致大面积的告警发生。如果能从大面积的告警中,找到最紧迫最要紧的那个,肯定能大大的缩短故障恢复时间(MTTR)。

这个故障定位的需求,通常被归类为根因分析(RCA,Root Cause Analysis)。当然,RCA 可不止故障定位一个用途,性能优化的过程通常也是 RCA 的一种。

归因分析之 Oculus 模块

和异常检测一样,做 RCA 同样是可以统计学和机器学习方法并行的~我们还是从统计学的角度开始。依然是 Etsy 的 kale 系统,其中除了做异常检测的 skyline 以外,还有另外一部分,叫 Oculus。而且在 Etsy 重构 kale 2.0 的时候,Oculus 被认为是1.0 最成功的部分,完整保留下来了。

Oculus 的思路,用一句话描述,就是:如果一个监控指标的时间趋势图走势,跟另一个监控指标的趋势图长得比较像,那它们很可能是被同一个根因影响的。那么,如果整体 IT 环境内的时间同步是可靠的,且监控指标的颗粒度比较细的情况下,我们就可能近似的推断:跟一个告警比较像的最早的那个监控指标,应该就是需要重点关注的根因了。

Oculus 截图如下:

这部分使用的 计算方式有两种:

欧式距离,就是不同时序数据,在相同时刻做对比。假如0分0秒,a和b相差1000,0分5秒,也相差1000,依次类推。

FastDTW,则加了一层偏移量,0分0秒的a和0分5秒的b相差1000,0分5秒的a和0分10秒的b也相差1000,依次类推。当然,算法在这个简单假设背后,是有很多降低计算复杂度的具体实现的,这里就不谈了。

唯一可惜的是 Etsy 当初实现 Oculus 是基于 ES 的 0.20 版本,后来该版本一直没有更新。现在停留在这么老版本的 ES 用户应该很少了。除了 Oculus,还有很多其他产品,采用不同的统计学原理,达到类似的效果。

归因分析之 Granger causality

Granger causality(格兰杰因果关系)是一种算法,简单来说它通过比较“已知上一时刻所有信息,这一时刻 X 的概率分布情况”和“已知上一时刻除 Y 以外的所有信息,这一时刻 X 的概率分布情况”,来判断 Y 对 X 是否存在因果关系。

可能有了解过一点机器学习信息的读者会很诧异了:不是说机器只能反应相关性,不能反应因果性的么?需要说明一下,这里的因果,是统计学意义上的因果,不是我们通常哲学意义上的因果。

统计学上的因果定义是:『在宇宙中所有其他事件的发生情况固定不变的条件下,如果一个事件 A 的发生与不发生对于另一个事件 B 的发生的概率有影响,并且这两个事件在时间上有先后顺序(A 前 B 后),那么我们便可以说 A 是 B 的原因。』

归因分析之皮尔逊系数

另一个常用的算法是皮尔逊系数。下图是某 ITOM 软件的实现:

我们可以看到,其主要元素和采用 FastDTW 算法的 Oculus 类似:correlation 表示相关性的评分、lead/lag 表示不同时序数据在时间轴上的偏移量。

皮尔逊系数在 R 语言里可以特别简单的做到。比如我们拿到同时间段的访问量和服务器 CPU 使用率:

然后运行如下命令:

acc_count<-scale(acc$acc_count,center=T,scale=T)

cpu<-scale(acc$cpuload5,center=T,scale=T)

cor.test(acc_count,cpu)

可以看到如下结果输出:

对应的可视化图形如下:

这就说明网站数据访问量和 CPU 存在弱相关,同时从散点图上看两者为非线性关系。因此访问量上升不一定会真正影响 CPU 消耗。

其实 R 语言不太适合嵌入到现有的运维系统中。那这时候使用 Elasticsearch 的工程师就有福了。ES 在大家常用的 metric aggregation、bucket aggregation、pipeline aggregation 之外,还提供了一种 matrix aggregation,目前唯一支持的 matrix_stats 就是采用了皮尔逊系数的计算,接口文档见:

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-matrix-stats-aggregation.html

唯一需要注意的就是,要求计算相关性的两个字段必须同时存在于一个 event 里。所以没法直接从现成的 ES 数据中请求不同的 date_histogram,然后计算,需要自己手动整理一遍,转储回 ES 再计算。

饶琛琳,目前就职日志易,有十年运维工作经验。在微博担任系统架构师期间,负责带领11人的SRE团队。著有《网站运维技术与实践》、《ELKstack权威指南》,合译有《Puppet 3 Cookbook》、《Learning Puppet 4》。在众多技术大会上分享过自动化运维与数据分析相关主题。

智能运维有哪些好处?

随着企业数字化转型的加速,IT运维数据也迎来了爆发式增长,随之产生了更多的挑战。对于众多企业来说,在IT建设的过程中都部署过各种运维工具,但各类监控数据只会保存并做固定阈值的简单告警,这些数据互相之间不通,无法对数据进行统一分析。传统运维工作依赖工程师的经验,难以复制和留存。

部署智能运维系统后,能有效地解决这些痛点,提高运维效率。即便是现有的工程师数量也能应对数百倍增长的数据和系统。

完整的智能运维系统包含:

(1)数字运维中台:提供数据治理服务、流批一体化服务和AI算法平台服务。

(2)统一监控中心:将监控对象与运维数据关联,实现对象视角的全面可观测性方案

(3)告警辨析中心:智能化集中告警,构建闭环告警管理

(4)指标解析中心:集中管理监控指标,AI算法智能化检测分析

(5)日志精析中心/日智速析专家:海量数据处理,串联及多维分析,实时聚类检测

(6)运营决策中心:多源数据接入,多设备统一管理,自定义观测场景

简单说来,就像智能手机最终替代传统手机一样,未来的IT运维也会由智能运维统领。除了实现运维工作的降本增效外,更能提供业务视角的观测,彰显运维数据的业务价值。(这一点已在多个客户处被验证)

关于智能运维平台案例启发与反思和智慧运维的案例让我们明白的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 智能运维平台案例启发与反思的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于智慧运维的案例让我们明白、智能运维平台案例启发与反思的信息别忘了在本站进行查找喔。
上一篇:告警管理能力成熟度模型(告警管理能力成熟度模型分析)
下一篇:关于事件通知说明函的信息
相关文章

 发表评论

暂时没有评论,来抢沙发吧~