如何在智能告警平台CA触发测试告警
905
2023-02-12
本文目录一览:
运维,更偏向于业务产品的支持,偏向于背后的英雄,运维团队需要为业务的稳定性,成本等方面负责!
企业需要的IT运维体系,本质上也是需要从稳定性、成本的角度来建立。
(1) 稳定性方面
稳定性,是反应服务访问质量差甚至无法访问的指标。业界流行的的稳定性公式是,服务总在线时间/服务总时间,具体指标数据以几个9表示,比如一般的云计算服务提供上,承诺的稳定性指标是3个9:99.9%(意味着每年宕机时间不超过8.75小时),而对于大型互联网公司的业务,对于运维的指标则是99.99%(全年宕机时间不超过52分钟),甚至99.999%(全年宕机时间不超过8分钟)。
稳定性方面,需要什么样的技术体系支撑呢?
监控体系。现在开源软件已经让企业的运维能力大幅提升,如zabbix,nagios等,已经被很多企业广泛使用。同时,随着人工智能的兴起,监控的智能化精细化水平,也在不断提升,比如,传统的监控无非是发现异常了之后报警,但加入智能化之后,则可以自动分析异常的根本原因在哪里,基于此则可以继续做自动的恢复,避免人工成本。
基础技术体系。包括硬件(服务器,网络等),操作系统/内核等,也直接影响到业务的稳定性。现在云计算的技术已经非常成熟,服务器与网络方面可以由类似openstack,cloudstack等IaaS平台管理,操作系统/OS等则可以通过docker,以及各类PaaS平台进行维护与管理,实现稳定性的保障。
安全体系。随着现在互联网的飞速发展,伴随而来的网络攻击也越来越疯狂,根据普华永道的调查,针对中国公司的网络攻击频率两年内已经提升了两倍,这也使得安全成为互联网架构中必不可少的环节,waf应用防火墙,数据清洗,防cc,ddos攻击等安全体系,也是必备的技术体系之一。
(2) 成本方面
计算成本。即托管企业运行软件所需要的服务器成本。现在云计算厂商提供的IaaS产品也是已经非常成熟,而且价格也在不断地下调,2016年10月,阿里云宣布了大量云产品的降价,一年内就下降十几次,也使得企业的成本控制方便可以越来有利。
人力成本。包括运维人力,研发人力,运维人力的主要投入来自于业务稳定性的保证,比如,服务异常之后的故障恢复,容灾与服务重建等。业务研发中,业务本身的迭代效率与质量,也间接影响了研发的成本。这方面则可以通过PaaS平台的技术手段来解决。
(3) 商业化
商业化是企业运维体系的更上一层。企业IT运维是每个企业必不可缺的环节之一,因此,运维相关的产品也逐渐受到企业的重视。比如应用性能分析厂商(new relic),则是提供了优化服务运维质量的有效方案,监控等产品也是运维最受欢迎的产品之一。
2020年IT运维市场前景分析
2019年10月29日,第一财经刊发了关于《工信部:加强5G、人工智能、工业互联网、物联网等新型基础设施建设》一文,其中指出,推动新型IT基础设施建设。加强5G、人工智能、工业互联网、物联网等新型IT基础设施建设,扩大高速率、大容量、低延时网络覆盖范围,鼓励企业通过内网改造升级实现人、机、物互联,为企业提供有力的信息网络支撑,让企业IT基础设施成为企业发展之路上的护航者。由此可以看出,国家对企业IT基础设施建设的重视之深,而我们IT运维人员将是这次IT基础设施建设的主力军。
IT运维是企业项目开发后保证业务系统正常运行的必备工作之一,如何满足企业对在线业务系统高可靠、低延时、大容量、零故障等要求或在终端用户无感知情况下处理运维过程中存在的各种各样的突发性问题,是IT运维人员必会的技能,但是如此优秀的IT运维人员几乎一将难求。
既然,IT运维人员对于国家相关部门大力支持的IT基础设施建议那么重要,那么我们IT运维人员都需要拥有哪些能力或IT运维工作内容有哪些呢?
1、IT基础设施运维自动化
由于企业要求IT基础设施能够做到高可靠、低延时、大容量、零故障等,那就需要IT运维人员对底层硬件设备进行用心维护,硬件不出故障才能保证上层业务系统的稳定、高效地运行。
2、IT基础设施之上在线业务系统上线
企业在线业务系统是企业对内或对外提供服务的重要途径,IT运维人员在业务系统开发后,能够准确及时上线业务系统是对其业务能力的重要考核标准之一。
3、IT基础设施及在线业务系统监控自动化
对企业IT基础设施及在线业务系统进行有效监控,能够IT运维人员及时获知硬件或业务系统状态,以此判断硬件或业务系统有效服务能力,对硬件或业务系统故障做到即时反馈,即时处理,不影响企业对内或对外提供服务。
4、IT基础设施及在线业务系统日志处理自动化
对企业IT基础设施及IT在线业务系统进行日志处理(收集、分析、监控、趋势图展示等),获知硬件使用或业务系统中用户行为,以此预测下一周期内硬件或业务系统资源可用情况,及时应对用户访问波峰。
5、在线业务系统发布自动化
使用业界先进工具实现在线业务系统代码发布自动化,打破传统IT运维 "领域隔离",实现真正的一键式发布业务系统,加快系统部署速度,实现用户无感知升级或回滚操作等。
6、IT基础设施平台升级
传统的企业IT基础设施平台对企业在线业务系统需要底层硬件平台的高响应、高可靠、大容量等能力反应不及时或不彻底的情况时有发生,这就需要我们IT运维人员能够对传统的企业IT基础设施平台进行升级,把传统的企业IT基础设施平台升级为云平台,由云平台的高响应、高速度、低延时、大容量等能力为业务系统稳定运维保驾护航。
7、在线业务系统迁移至云平台
传统的企业IT基础设施平台升级为云平台后,需要IT运维人员能够把运行在传统的企业IT基础设施平台之上的业务系统迁移至云平台。
8、云平台运行维护(升级)
云平台运行过程中,需要IT运维人才时刻进行监控、对于云平台突发情况进行处理。
9、IT运维自动化系统开发
由于企业IT基础设施运维过程中,涉及多业务、多场景、多平台等,IT运维人员在运维过程中亟需一套本企业的IT运维管理系统,但是由于每家企业的IT基础设施异样性,导致市场上无法采购标准化系统进行应用,大多数情况下由本企业IT运维人员根据企业自身情况进行开发。
10、业务系统海量数据分析及展示
企业在运营过程中产生大量的业务类数据,并且此类数据对于生产、运营等有利于决策,因此IT运维人员需要对企业内部或行业内的数据进行收集、分析、展示等,最终为企业运营提供决策参考依据。
以上为我们为罗列的IT运维人员能力要求或工作内容,下面我们再来了解一下2020年IT运维市场规模,2020年有越来越多的企业开始拥抱互联网,借助互联网开展“无接触”式业务,特别是在2020年初“新冠”疫情的影响下,公司为了生存开启了全员在线办公及业务全天侯在线处理等,这也就为企业打开了企业在线常态化;让更多的工作借助互联网完成,据权威机构公布称:"这一切将产生约100万相关技术开发岗位及约10万IT运维岗位,至2024年,IT运维行业市场容量将呈现出逐年增长态势,到2024年IT运维管理行业市场规模将达到3832.8亿元。"
2020年IT运维行业技术展望
企业对于IT运维人员要求越来越“T型”化,其中包含更深层次的专业化,自动化以及智能化,因此在2020年全球大多数的企业都在以行业标杆(例如:谷歌、亚马逊、阿里等)为榜样,着力发展企业自身的如下方向:
1、云计算
云服务器是由云服务厂商提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器免去了采购IT硬件的前期准备,让企业像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。
2、DevOps
DevOps使企业项目开发者与企业项目开发后IT运维人员、测试人员、产品经理、客户等直接发生了连接关系,让项目各方能够进行更好地结合,把以住只关注自身业务转移到整个交付过程,甚至关注到最终服务上,DevOps已经成熟,其在2020年将成为每一位IT运维人员必备技能之一。
3、AIOps
IT运维内容没有变,但是IT运维方式在发生改变,AIOps将为我们IT运维人员“解放”双手,让我们可以花费更少的时间在IT基础设施及IT业务系统监控、日志、安全等工作上,把业务重心投放到企业IT基础设施及IT业务系统发展、运营、服务决策上。
4、SaaS
SaaS(Software-as-a-Service)是企业提供应用、开发、IT运维等全套服务的一种形式,由于其不再需要用户有任何IT基础设施的投入,可以大大降低企业IT成本,获得更优质的服务。
5、边缘计算
随着5G技术大面积应用,更多的边缘设备需要对接到云平台,并享受近十年云计算行业发展的红利,但是如果生硬地把物联网设备与云计算平台对接,将会为云计算平台带来非常大的数据量的同时,也会影响到物联网边缘设备的数据处理能力,因此我们可以考虑把云计算技术向边缘设备进行延伸,这就是我们所说的边缘计算,IT运维人员将主导边缘计算的成云能力。
6、Serverless
ServerLess,为一种无服务模式,目的让企业不再关注IT基础设施,由IT运维人员提供IT基础设施后,多企业可以共享同一IT基础设施平台,企业可以摊销更多IT基础设施成本。
2020年黑马程序员IT运维工程师学习路线图
1、Linux操作系统基本功
Linux系统安装、配置,基本命令,VIM编辑器,Linux自有服务,权限管理,YUM包管理,开源项目上线部署。
2、Linux系统服务
网络基础(重点难点TCP/UDP)、sshd服务(scp/rsync)、文件共享服务(ftp/nfs/samba)、DNS域名服务、LAMP编译安装、rsyslog、Linux分区+LVM逻辑卷+(软硬RAID)
3、Shell、MySQL
Shell脚本编程、MySQL从入门到精通(DBA方向)
4、商城系统上线部署
Nginx概述、LNMP环境搭建、MySQL读写分离、LB负载均衡(Nginx/LVS/HAProxy)、NoSQL(Memcached、Redis、MongoDB)、存储、企业级商城系统架构实战。
5、配置自动化
配置自动化(Ansible/SaltStack)、监控(Zabbix/Promethus)、日志分析(ELK、KafKa)、CI/CD(Git、GitLab、Jenkins)
6、运维安全与调优
运维安全(防火墙、CA认证、VPN)
应用软件调优(Web应用调优)
系统调优(系统+内核)
7、运维云计算
Hadoop、KVM虚拟化、公有云运维(阿里云)、私有云运维(OpenStack)、Docker容器、Kubernetes(K8S)容器编排工具
8、Python运维开发方向
Python运维基础、Python面向对象、Django框架、Python CMDB项目开发
附件为2020版黑马程序员Linux云计算+运维开发学习路线图:
这个问题,涉及到两个体系,弄清楚就知道IT运维服务台的技术要求了。一个体系是运维部门的工作范围,一个体系是运维岗职责和技能要求。
了解运维部门涉及哪些工作范围,才可以很好地去应对服务台可能面临的各种突发事件,以及如何进行工单需求流转。从运维实践的经验看,只有具备运维岗必备的技能和素质要求,才能从容解决问题,有条不紊地推动工作高效运转。
IT运维服务台,不单纯是一个转接口、转接需求那么简单,这个岗位背后涉及的知识体系非常繁杂。就像医院的收费窗口或者药品窗口,平时看着就是非常简单的收费、打印工作或按单抓药工作,貌似按部就班、简单至极,但实际上每个都是专业人员,非专业人员不能胜任。窗口除了日常工作,还要解决各种突发情况(退费退药、审核药品等)。
如上,下面就列明下运维部门工作范围和运维岗工作职责。
基础设施运维:
1)基础运维:包括机房供配电系统、机房UPS系统、机房空调系统、机房弱电系统、消防系统等;
2)硬件设施:如服务器设备、安全设备、存储设备、终端设备等;
3)网络环境:局域网、互联网、网络线路,以及路由器、交换机、负载均衡设备等;
4)基础软件:包括操作系统、数据库系统、中间件等。
2.应用系统运维:指业务应用系统投入应用后,为改正软件中隐含的错误,或为提高应用系统软件的适应性、可靠性和完善应用系统功能。
3.信息资源运维:建立数据运行与维护的各项管理制度,规范运行与维护业务流程,有效开展运行监控与维护、故障诊断排除、数据备份与恢复、归档与检索等,保障数据库正常运行,使信息系统可持续稳定运定。
4.系统安全运维:能事先估计出可能出现的威胁并制定出预防措施,以防止蓄意或意外破坏网络、硬件及文件,防止蓄意滥用软硬件,防止信息盗窃,保护数据正确赛鱼中,提供灾难恢复等内容。包括实体安全、运行安全、信息安全和人员安全。
运维工程师职位描述:
岗位职责:1.负责业务产品上线,并不断进行迭代优化,解决反馈的技术问题,保障系统高效运行2.针对业务特性,能对常用互联网相关技术熟练部署、配置、优化。3.参与运维体系建设,应用系统性能分析与架构优化,推进运维自动化建设。4.优化业务的资源利用率,降低成本。5.负责与相关技术、业务等同事保持紧密的沟通和协作,共同完成部门目标。
任职资格:1.本科及以上学历,计算机相关专业,5年以上的互联网产品运维经验2.精通Linux操作系统,熟悉微服务架构、容器技术,能对常用互联网相关技术熟练部署、配置、优化3.具备基本的服务器、网络、存储、操作系统知识,思路清晰,善于思考,能独立分析和解决问题4.掌握nginx、redis、RabbitMQ、zookeeper、mysql、Hadoop、docker软件的配置使用5.掌握jenkins、git、ELK工具,对软件操作与命令熟悉有丰富经验。
伴着IT在企业中的作用日益明显,IT建设和IT运维同时成为了企业效率的加速器。同时,计算机硬件系统和软件系统的运维已成为了各行各业单位,尤其是信息服务部门普遍头痛的事情。本文以下内容总结几个头痛的主要因子,拿出来供大家参考指导,并接下来的系列课题中会对针对这些现状提出改进措施 。
现状一:IT运维人员成本偏高
据专业调查,大多数CIO表示最关心的是IT运维成本过高。原因是在过去的5年中,很多企业都实施了很多IT系统,使得IT运行越来越复杂,也越来越难管理。同时,其中有50%的受访CIO认为IT运维成本过高的一个原因是IT运维的自动化做得还不够好,依靠手工流程来管理,不但使到运维效率不高,而且人力成本更是花费惊人。
同时,另一家国际知名调查机构Gartner调查发现,在IT运维成本中,源自技术或产品(包括硬件、软件、网络等)成本其实只占20%,而流程维护成本占40%,运维人员成本占40%。流程维护成本包括日常维护、变更管理、测试成本等;人员成本包括训练、教育、人员流失、招聘成本等。
从图中,我们可以看出, “流程维护”类和“运维人员”两者都与软性方面的成本相关非常紧密。而且三者的关系可以用下图来表示:
备注:C类成本的大小很大程度取决于B和D类。
现状二:处在“救火式”的IT运维控制
国内在IT运维过程中,IT员工大多数只是处在被动低效率手工救火的状态,只有当事件已经发生并已造成业务影响时才能发现和着手处理。这种被动“救火”会导致:①.IT运维人员终日忙碌,IT运维人员日常大部分时间和精力是处理一些简单重复的问题;②IT运维本身质量很难提高;③再加上故障预警机制的不完善,往往是故障发生后或报警后才会进行处理,不但事倍功半而且故障还常常会出现恶性连锁反应;④IT部门和业务部门对IT运维的服务满意度都不高。
现状三:简单的自动化程度起了“反作用”
尽管IT运维管理的技术在不断进步,但实际上很多IT运维人员并没有真正解脱出来,主要原因是自动化不高而导致的。技术虽然能够获取IT设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起根本没法判断问题的根源在哪里。还有,许多企业的更新管理绝大多数工作都是手工操作的。即使一个简单的系统变更或更新往往都需要运维人员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行,占用了大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。
就如图中一样,所有信息(杂乱)都从各个地方被收集到了这个圆圈(容量不变)里面,信息进去后不能主动流出来。可能会出现的情况:这个圆圈容器装满后会爆破,或者是溢出来;圆圈的运行速度会慢慢降下来,从而导致信息输入的速度也会变慢。
现状四:本是同家兄弟,却不经常来往
这个问题主要是发生在拥有许多子公司的企业,每个子公司的系统都是独立的,下面主要以国内银行业为例。以前国内的银行业没有搞集中建设,每家银行的各个地方分行都单独建设和维护自己的核心业务系统,都各自配备开发人员和维护人员。
同时在运行维护方面,对故障的解决,完全依靠运行维护部门的工程师的上门服务。不管问题大小,工程师都要来回去现场解决。遇到一些技术难度大的问题,如果工程师的水平高,处理起来就快;如果水平低,甚至花上几个小时,可能也解决不了。
虽然国内银行业的IT运行维护管理水平,有点接近国外80年代末90年代初银行业的水平,银行IT结构上都采用了大集中模式。从硬件设备上来看,国内银行不比别人差,甚至还有些领先,但IT运维管理还没达到国外当时的水平,尤其是呼叫中心、客户服务方面。”
结束语
从上面三个现状来看,主要是有关软性方面的。的确如此,国内借着近十几年高速发展,硬件方面的发展取得了重大进步,某些方面的水平甚至是超过了国外的水平,并且IT硬件的生产厂商也是出现了很多与国外厂商同等秀舞的水平,如华为、中兴等。但是往往是硬件易学,知识技巧难寻。这不仅与国内教育环境有关外,还与知识经验的继承有关。
管理要动态匹配业务需求
IT部门还会经常联合HR、法务等部门一起做跨部门的沟通,面对的对象是各部门的管理层,让他们理解企业的IT策略。
发表评论
评论列表