AIOps 一场颠覆传统运维的盛筵
1709
2023-02-17
本文目录一览:
伴着IT在企业中的作用日益明显,IT建设和IT运维同时成为了企业效率的加速器。同时,计算机硬件系统和软件系统的运维已成为了各行各业单位,尤其是信息服务部门普遍头痛的事情。本文以下内容总结几个头痛的主要因子,拿出来供大家参考指导,并接下来的系列课题中会对针对这些现状提出改进措施 。
现状一:IT运维人员成本偏高
据专业调查,大多数CIO表示最关心的是IT运维成本过高。原因是在过去的5年中,很多企业都实施了很多IT系统,使得IT运行越来越复杂,也越来越难管理。同时,其中有50%的受访CIO认为IT运维成本过高的一个原因是IT运维的自动化做得还不够好,依靠手工流程来管理,不但使到运维效率不高,而且人力成本更是花费惊人。
同时,另一家国际知名调查机构Gartner调查发现,在IT运维成本中,源自技术或产品(包括硬件、软件、网络等)成本其实只占20%,而流程维护成本占40%,运维人员成本占40%。流程维护成本包括日常维护、变更管理、测试成本等;人员成本包括训练、教育、人员流失、招聘成本等。
从图中,我们可以看出, “流程维护”类和“运维人员”两者都与软性方面的成本相关非常紧密。而且三者的关系可以用下图来表示:
备注:C类成本的大小很大程度取决于B和D类。
现状二:处在“救火式”的IT运维控制
国内在IT运维过程中,IT员工大多数只是处在被动低效率手工救火的状态,只有当事件已经发生并已造成业务影响时才能发现和着手处理。这种被动“救火”会导致:①.IT运维人员终日忙碌,IT运维人员日常大部分时间和精力是处理一些简单重复的问题;②IT运维本身质量很难提高;③再加上故障预警机制的不完善,往往是故障发生后或报警后才会进行处理,不但事倍功半而且故障还常常会出现恶性连锁反应;④IT部门和业务部门对IT运维的服务满意度都不高。
现状三:简单的自动化程度起了“反作用”
尽管IT运维管理的技术在不断进步,但实际上很多IT运维人员并没有真正解脱出来,主要原因是自动化不高而导致的。技术虽然能够获取IT设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起根本没法判断问题的根源在哪里。还有,许多企业的更新管理绝大多数工作都是手工操作的。即使一个简单的系统变更或更新往往都需要运维人员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行,占用了大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。
就如图中一样,所有信息(杂乱)都从各个地方被收集到了这个圆圈(容量不变)里面,信息进去后不能主动流出来。可能会出现的情况:这个圆圈容器装满后会爆破,或者是溢出来;圆圈的运行速度会慢慢降下来,从而导致信息输入的速度也会变慢。
现状四:本是同家兄弟,却不经常来往
这个问题主要是发生在拥有许多子公司的企业,每个子公司的系统都是独立的,下面主要以国内银行业为例。以前国内的银行业没有搞集中建设,每家银行的各个地方分行都单独建设和维护自己的核心业务系统,都各自配备开发人员和维护人员。
同时在运行维护方面,对故障的解决,完全依靠运行维护部门的工程师的上门服务。不管问题大小,工程师都要来回去现场解决。遇到一些技术难度大的问题,如果工程师的水平高,处理起来就快;如果水平低,甚至花上几个小时,可能也解决不了。
虽然国内银行业的IT运行维护管理水平,有点接近国外80年代末90年代初银行业的水平,银行IT结构上都采用了大集中模式。从硬件设备上来看,国内银行不比别人差,甚至还有些领先,但IT运维管理还没达到国外当时的水平,尤其是呼叫中心、客户服务方面。”
结束语
从上面三个现状来看,主要是有关软性方面的。的确如此,国内借着近十几年高速发展,硬件方面的发展取得了重大进步,某些方面的水平甚至是超过了国外的水平,并且IT硬件的生产厂商也是出现了很多与国外厂商同等秀舞的水平,如华为、中兴等。但是往往是硬件易学,知识技巧难寻。这不仅与国内教育环境有关外,还与知识经验的继承有关。
管理要动态匹配业务需求
IT部门还会经常联合HR、法务等部门一起做跨部门的沟通,面对的对象是各部门的管理层,让他们理解企业的IT策略。
当前,随着企业数字业务的快速发展和业务量的攀升,企业信息系统架构的升级变迁,以及企业多套业务系统的在线运营,各类监控组件和应用系统间的关系错综复杂,系统运维的难度也急剧增加,且面临着巨大挑战。
在传统运维方式下,数据规模大且离散,数据治理和全面分析能力薄弱且依赖于经验和规则,运维十分被动,解决问题效率非常低下,运维的实用性大打折扣,难以满足当前主动运营的要求。
具体来说有以下几点:
发现问题难:企业在经年累月中布局了诸多监控工具,但是监控手段阈值的设定单一,且一般都是静态阈值,而指标和告警的异常却是多样化的,这样就会造成大量的误报漏报现象。此外,目前绝大多数的监控工具,缺乏趋势预测能力,使得运维局面非常被动,导致发现问题十分困难。
根因定位难:发现问题时一般都是对问题进行定性分析,可能了解到某一告警对应的指标波动是值得关注的,但是并不能因此确定造成这种现象具体根因。而且目前的监控工具,大多缺乏综合根因定界及定位分析的手段,即便对监控进行了集中管理,也难以通过单纯的几种指标进行根因定位。
数据治理难:当数字化建设进行到一定程度的时候,被管理对象的数据量相应的也是水涨船高,数据数量大、类别多且非常分散,很难通过某一指标体系来衡量系统的健康度,也没有一个统一的视角去判断数据质量的好坏优劣。
运营分析难:现有的大多数基础监控工具,多数都是从自己的管理阈例如系统管理、网络管理出发看待问题,缺乏端到端的分析能力,没办法以业务视角从综合运营分析的角度,去看待多样化指标对系统的影响。
而智能运维是一种全新的数字化运维能力,也将是数字化转型的必备能力。智能运维相对于传统运维模式而言,能够在运维数据治理、业务数字化风险、运维人力成本和业务侧影响力四个方面有本质的效能提升。
智能运维相对于传统运维模式而言,能够在四个方面有本质的效能提升:
运维数据治理。通过高性能实时处理的数据平台广泛采集、处理和分析数字化业务运行过程中的多样化运维数据,包括告警、指标、日志、配置以及运维工单等类别,不仅提升了运维大数据的治理能力,优化了数据质量,而且为进一步激活运维数据的价值打下了良好基础;
业务数字化风险。使运维人员不仅提升了历史运维数据的分析能力并且能够对实时数据进行异常检测和问题预判,有效降低数字化业务的运行风险,提升可用性、稳定性;
运维人力成本。使真正意义上的跨域根因定位成为可能,降低对专业运维人员经验技能的依赖,迅速缩短故障排查时间并有效降低人力成本;
业务侧影响力。以业务视角利用多元化数据提高运营分析和决策能力,比如端到端的分析业务交易状态,提供给业务、客服部门及时反馈和决策支持依据,充分增强业务影响力;
智能运维发展正如火如荼,Gartner预见其为下一代运维,认为到2022年将有近50%的企业用户部署智能运维。虽然目前不少企业已经在积极投入建设,也还有一些企业处在迷茫阶段,对这种趋势不太清晰,借用著名作家威廉吉布森的话,“未来已来,只是分布不均。”
根据前瞻产业研究院《中国IT运维管理行业经营模式研究与投资预测分析报告》当中显示,随着5G的全面商用,IT运维成为企业的技术管理中的重中之中。在2012年,我国IT运维服务市场仅为835.8亿元,到2019年市场规模上升到了2324.3亿元,上升了178.09%。而从新成立企业数来看,整体市场并没有真正实现它的价值。因此,前瞻预测2025年市场规模将达到3668亿元左右。
中国IT运维管理行业发展现状
——2020年中国IT服务市场规模将达8253亿元左右
信息产业是与国民经济发展息息相关的战略性、支柱性产业,云计算、大数据、移动互联网等新业态的出现驱动信息产业迈向新的阶段,IT服务也发展为引领科技创新、驱动经济社会转型发展的核心力量。2012-2019年,我国IT服务市场规模呈现上升趋势。从增速来看,2017年的增速达到了15.61%,市场规模达到6048.4亿元。2019年,中国IT服务市场规模达到7952.8亿元,同比增长14.12%。根据近年来中国IT服务市场的发展,前瞻预测2020年我国IT服务市场规模将达8253.4亿元左右。
——IT运维管理行业市场概况
企业IT运维管理是指采用专业的信息技术和方法,对软硬件环境、计算机网络和电信网络、应用系统及运维服务流程等进行的综合管理,其目的是保障系统与网络的可用性、安全性和业务的持续性。IT运维管理涵盖IT运维服务和IT运维产品两个层面,企业需要通过服务和产品之间的有机整合和动态协作,共同实现IT系统对业务运行的有效支撑。其中,IT运维服务是IT服务的重要组成部分,根据提供服务的主体不同分为原厂运维服务和第三方运维服务。IT运维产品指ITOM/ITOA工具,企业可以利用ITOM/ITOA工具对IT基础设施和应用软件等对象进行实时的监控和管理,以保证被监控对象处于最佳运行状态。在一个企业成长的过程中,其IT系统的建设和运维管理必将经过四个阶段。因此,BSM是ITSM的发展和完善,是企业IT系统建设和运维管理发展的必然趋势。
——中国IT运维管理行业市场资产规模及趋势
根据企查猫的数据显示,2015-2019年以来我国IT运维管理行业新成立企业呈现逐年递增趋;2019年新成立的IT运维管理行业企业有245家,相比2015年的2家增长了122.5倍。从注册资本在1千万以上的新企业来看,2015-2019年呈现上升趋势,在2019年共有48家新成立企业注册资本在1千万以上,达到近年来高峰。2020年1-10月,我国IT运维管理行业新成立企业有104家;其中,注册资本在1千万以上的企业有23家。
注:查询状态为在业的企业且处于信息传输、软件和信息技术服务业内的新成立企业。
——中国IT运维服务市场规模趋势呈现逐年上升趋势
IT运维服务市场规模增长的首要原因是数据中心本身的扩张。信息化建设进程的深入让数据的价值显现,政府和企业对数据中心的需求都在不断提高,无论是数据中心的建设数量或是建设规模都表现出持续的增长。由于企业业务的不断扩张,在金融、电信等重点应用领域,数据中心运维的合同额呈现出逐年上升的趋势。数据中心基础架构复杂度提高、服务器数量急剧增长、机房能耗快速攀升等因素,对数据中心的空间优化和容量扩展能力带来巨大挑战,从而促使新的运维服务需求产生。
2012-2019年,中国IT运维服务市场规模呈现波动趋势。从增速来看,2014年达到近年来最高增速17.34%,达到了1121.2亿元的市场规模。2019年,中国IT运维服务市场规模达到2324.3亿元,同比增长15.73%。根据前几年中国IT运维服务市场的发展和未来发展趋势,前瞻预测2020年我国中国IT运维服务市场规模将达到2690亿元左右。
——中国IT运维产品市场规模分析 ITOA增速逐年放缓
ITOA是ITOM行业中新兴的细分市场,是企业对IT运维管理提出更高要求的表现。随着IT运维管理发展越来越深入,企业对运维管理的需求已经不仅是追求系统的稳定和健康运行,以运维数据指导业务和决策是ITOM发展到一定阶段必然的产物。但是,ITOA与传统的IT运维管理间的关系并非是割裂的,相反的,企业进行大数据分析所需要的数据正是来源于原有的IT运维系统,即ITOA必须建立在传统运维的基础之上,两者的发展应当是相辅相成的。与传统IT运维管理不同的是,ITOA要求CIO能够站在企业的战略高度审视整个IT系统,将IT性能数据和业务数据结合,通过综合的诊断和分析了解企业内部的运营状态,能够为企业的经营管理创造更大的价值。
相比新兴的细分ITOA领域,ITOM市场经过多年发展已经逐渐过渡到稳定增长阶段。ITOM市场规模的增长主要来自于IT运维体系内部的迭代升级。2019年ITOM整体市场规模达到106.4亿元,同比增速12.6%。ITOA市场虽然当前体量较小,但是增长速度非常快;2019年,ITOA市场规模为14亿元,同比增速26.1%。根据前几年中国ITOM、ITOA市场的发展,前瞻预测出2020年中国ITOM、ITOA市场规模分别将达到111亿元和15亿元左右。
中国IT运维行业前景预测 2025年市场规模将达到3668亿元左右
从中长期来看,随着国内经济的快速发展、企业信息化水平的提升和市场竞争的加剧,企业将普遍加强内部控制并实施精细化管理。作为企业信息化建设和精细化管理不可或缺的有机组成部分,IT运维管理将被越来越多的企业或机构采纳并实施,其市场规模将得到大幅拓展。前瞻预测,2025年中国IT运维管理市场规模为3668亿元左右。
IT运维工作报告
作为整个企业it运维管理现状的IT“管家”it运维管理现状,首先应该对管理的资产情况了然于胸。比如说it运维管理现状:
现在的IT规模是怎样的?网络链路总长是多少?网络设备和服务器的数量、类型各是什么?都是什么品牌的?还有每个服务器上运行的数据库、中间件的类型和数量等等,这些情况都应该一个不漏、有条理地梳理清楚。
搞清楚“有什么”的'问题以后,还应该做个比较,目前的资产情况和历年相比有什么变化,是增加还是减少了,这些变动都体现在哪里?这些数据整理出来,一张清晰的“资产图”便被轻松地“绘制”出来了
二、业务构成及分析
一个企业里,最重要的应该就是业务系统的稳定运行和增效。所以IT运维管理员的总结里,必然不能缺少对业务系统保障情况的描述。
首先也应该勾勒出“业务”的大体形象:目前it运维管理现状我们所有的业务系统有哪些?哪些是核心的业务,它们在解决何种问题,为用户提供了哪些服务?这些业务又运行在哪些服务器上,它们的运行状态如何…?这样我们先直观地把“业务系统”介绍给大家。
接下来我们可以深入地去剖析一下这些业务的运行状况,比如:我们的业务系统一年中平均每月主干链路的总流量达到了多少?将这些业务流量排名,前几位的是哪些?这些高流量的业务有多少人次在访问?这些业务的平均无故障运行时间是多少?根据其设计,这些业务的可用性指标达到多少?是远未达到使用预设,差一些到满负荷,还是已经超负荷…等等。还有“变化”的视角是应该一直具备的,还需要与往年比,哪些业务是新增的,这些新增业务的使用情况如何,是用得较多还是较少?
三、事件处理情况
对一年中所做的事件处理情况进行汇总。你是否能说清楚IT部门这一年处理的事件数量有多少?这些事件分类有哪些?哪些是重大事件?这一年里产生过哪些重大的事件?这些重大事件对整个IT系统的影响是什么?是否针对此进行过全面的分析,并给到过改进的意见?采取了哪些措施保障了核心业务的SLA?这些数据也有助于对全年的运维工作进行了解。
四、未来工作开展建议
一份年终总结,除了要说清楚这一年发生的事儿,还应该能对下一年乃至未来几年的工作开展提供客观依据。并且作为一个合格的IT运维管理员,眼界应该更宽一些,除了着眼于本职工作,也应该不断地关注业界的新技术、新趋势,并去分析这些新技术对本企业的IT规划是否会产生影响,可能产生的影响又是什么?结合之前对业务使用情况的统计和分析,你就可以为决策者提供出一些更有意义的信息和建议:未来企业上马一些什么样的IT业务能为企业可持续发展带来先机,哪些IT系统需要改进以满足未来不断增长的需要等等。
2020年IT运维市场前景分析
2019年10月29日,第一财经刊发了关于《工信部:加强5G、人工智能、工业互联网、物联网等新型基础设施建设》一文,其中指出,推动新型IT基础设施建设。加强5G、人工智能、工业互联网、物联网等新型IT基础设施建设,扩大高速率、大容量、低延时网络覆盖范围,鼓励企业通过内网改造升级实现人、机、物互联,为企业提供有力的信息网络支撑,让企业IT基础设施成为企业发展之路上的护航者。由此可以看出,国家对企业IT基础设施建设的重视之深,而我们IT运维人员将是这次IT基础设施建设的主力军。
IT运维是企业项目开发后保证业务系统正常运行的必备工作之一,如何满足企业对在线业务系统高可靠、低延时、大容量、零故障等要求或在终端用户无感知情况下处理运维过程中存在的各种各样的突发性问题,是IT运维人员必会的技能,但是如此优秀的IT运维人员几乎一将难求。
既然,IT运维人员对于国家相关部门大力支持的IT基础设施建议那么重要,那么我们IT运维人员都需要拥有哪些能力或IT运维工作内容有哪些呢?
1、IT基础设施运维自动化
由于企业要求IT基础设施能够做到高可靠、低延时、大容量、零故障等,那就需要IT运维人员对底层硬件设备进行用心维护,硬件不出故障才能保证上层业务系统的稳定、高效地运行。
2、IT基础设施之上在线业务系统上线
企业在线业务系统是企业对内或对外提供服务的重要途径,IT运维人员在业务系统开发后,能够准确及时上线业务系统是对其业务能力的重要考核标准之一。
3、IT基础设施及在线业务系统监控自动化
对企业IT基础设施及在线业务系统进行有效监控,能够IT运维人员及时获知硬件或业务系统状态,以此判断硬件或业务系统有效服务能力,对硬件或业务系统故障做到即时反馈,即时处理,不影响企业对内或对外提供服务。
4、IT基础设施及在线业务系统日志处理自动化
对企业IT基础设施及IT在线业务系统进行日志处理(收集、分析、监控、趋势图展示等),获知硬件使用或业务系统中用户行为,以此预测下一周期内硬件或业务系统资源可用情况,及时应对用户访问波峰。
5、在线业务系统发布自动化
使用业界先进工具实现在线业务系统代码发布自动化,打破传统IT运维 "领域隔离",实现真正的一键式发布业务系统,加快系统部署速度,实现用户无感知升级或回滚操作等。
6、IT基础设施平台升级
传统的企业IT基础设施平台对企业在线业务系统需要底层硬件平台的高响应、高可靠、大容量等能力反应不及时或不彻底的情况时有发生,这就需要我们IT运维人员能够对传统的企业IT基础设施平台进行升级,把传统的企业IT基础设施平台升级为云平台,由云平台的高响应、高速度、低延时、大容量等能力为业务系统稳定运维保驾护航。
7、在线业务系统迁移至云平台
传统的企业IT基础设施平台升级为云平台后,需要IT运维人员能够把运行在传统的企业IT基础设施平台之上的业务系统迁移至云平台。
8、云平台运行维护(升级)
云平台运行过程中,需要IT运维人才时刻进行监控、对于云平台突发情况进行处理。
9、IT运维自动化系统开发
由于企业IT基础设施运维过程中,涉及多业务、多场景、多平台等,IT运维人员在运维过程中亟需一套本企业的IT运维管理系统,但是由于每家企业的IT基础设施异样性,导致市场上无法采购标准化系统进行应用,大多数情况下由本企业IT运维人员根据企业自身情况进行开发。
10、业务系统海量数据分析及展示
企业在运营过程中产生大量的业务类数据,并且此类数据对于生产、运营等有利于决策,因此IT运维人员需要对企业内部或行业内的数据进行收集、分析、展示等,最终为企业运营提供决策参考依据。
以上为我们为罗列的IT运维人员能力要求或工作内容,下面我们再来了解一下2020年IT运维市场规模,2020年有越来越多的企业开始拥抱互联网,借助互联网开展“无接触”式业务,特别是在2020年初“新冠”疫情的影响下,公司为了生存开启了全员在线办公及业务全天侯在线处理等,这也就为企业打开了企业在线常态化;让更多的工作借助互联网完成,据权威机构公布称:"这一切将产生约100万相关技术开发岗位及约10万IT运维岗位,至2024年,IT运维行业市场容量将呈现出逐年增长态势,到2024年IT运维管理行业市场规模将达到3832.8亿元。"
2020年IT运维行业技术展望
企业对于IT运维人员要求越来越“T型”化,其中包含更深层次的专业化,自动化以及智能化,因此在2020年全球大多数的企业都在以行业标杆(例如:谷歌、亚马逊、阿里等)为榜样,着力发展企业自身的如下方向:
1、云计算
云服务器是由云服务厂商提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器免去了采购IT硬件的前期准备,让企业像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。
2、DevOps
DevOps使企业项目开发者与企业项目开发后IT运维人员、测试人员、产品经理、客户等直接发生了连接关系,让项目各方能够进行更好地结合,把以住只关注自身业务转移到整个交付过程,甚至关注到最终服务上,DevOps已经成熟,其在2020年将成为每一位IT运维人员必备技能之一。
3、AIOps
IT运维内容没有变,但是IT运维方式在发生改变,AIOps将为我们IT运维人员“解放”双手,让我们可以花费更少的时间在IT基础设施及IT业务系统监控、日志、安全等工作上,把业务重心投放到企业IT基础设施及IT业务系统发展、运营、服务决策上。
4、SaaS
SaaS(Software-as-a-Service)是企业提供应用、开发、IT运维等全套服务的一种形式,由于其不再需要用户有任何IT基础设施的投入,可以大大降低企业IT成本,获得更优质的服务。
5、边缘计算
随着5G技术大面积应用,更多的边缘设备需要对接到云平台,并享受近十年云计算行业发展的红利,但是如果生硬地把物联网设备与云计算平台对接,将会为云计算平台带来非常大的数据量的同时,也会影响到物联网边缘设备的数据处理能力,因此我们可以考虑把云计算技术向边缘设备进行延伸,这就是我们所说的边缘计算,IT运维人员将主导边缘计算的成云能力。
6、Serverless
ServerLess,为一种无服务模式,目的让企业不再关注IT基础设施,由IT运维人员提供IT基础设施后,多企业可以共享同一IT基础设施平台,企业可以摊销更多IT基础设施成本。
2020年黑马程序员IT运维工程师学习路线图
1、Linux操作系统基本功
Linux系统安装、配置,基本命令,VIM编辑器,Linux自有服务,权限管理,YUM包管理,开源项目上线部署。
2、Linux系统服务
网络基础(重点难点TCP/UDP)、sshd服务(scp/rsync)、文件共享服务(ftp/nfs/samba)、DNS域名服务、LAMP编译安装、rsyslog、Linux分区+LVM逻辑卷+(软硬RAID)
3、Shell、MySQL
Shell脚本编程、MySQL从入门到精通(DBA方向)
4、商城系统上线部署
Nginx概述、LNMP环境搭建、MySQL读写分离、LB负载均衡(Nginx/LVS/HAProxy)、NoSQL(Memcached、Redis、MongoDB)、存储、企业级商城系统架构实战。
5、配置自动化
配置自动化(Ansible/SaltStack)、监控(Zabbix/Promethus)、日志分析(ELK、KafKa)、CI/CD(Git、GitLab、Jenkins)
6、运维安全与调优
运维安全(防火墙、CA认证、VPN)
应用软件调优(Web应用调优)
系统调优(系统+内核)
7、运维云计算
Hadoop、KVM虚拟化、公有云运维(阿里云)、私有云运维(OpenStack)、Docker容器、Kubernetes(K8S)容器编排工具
8、Python运维开发方向
Python运维基础、Python面向对象、Django框架、Python CMDB项目开发
附件为2020版黑马程序员Linux云计算+运维开发学习路线图:
关于it运维管理现状和it运维的发展方向的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 it运维管理现状的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于it运维的发展方向、it运维管理现状的信息别忘了在本站进行查找喔。发表评论
暂时没有评论,来抢沙发吧~