如何在智能告警平台CA触发测试告警
1268
2023-02-22
本文目录一览:
在一个公司内,IT部门一般是为公司其他业务部门提供IT服务,通常是成本中心,非盈利中心。作为成本中心有两个方面需要重点考虑,一方面,需要考虑投入产出比;另一方面,IT部门一般技术力量也不强。从这两个方面考虑,IT部门有充分的理由考虑将部分或者全部的IT工作外包给更专业的公司去处理,让专业的人处理专业的事。
哪些可以外包
上面根据业务的核心程度和技术力量来进行区分哪些IT工作可以外包,对于部分外包的情况可以根据开发的主要流程进一步来确定:
上图中对于运营维护都建议IT部门直接处理,而不是外包,这不是说不能进行外包,而是强调IT部门对运维工作要有绝对的把控,因为这是IT服务好坏的一个底线,可以采用外包代维,但是关键部分,包括流程管控,安全管理等等必须抓紧抓牢。
外包模式
根据外包方多少来区分,外包又有单方外包和多方外包:
单方外包: 将IT业务整体打包外包给一家公司,包括开发、测试、运维整个流程,实行大包干。这种情况优点是可以全面利用承包方的资源,如果选择的是优秀的承包商可以短时间提升IT部门的服务水平。缺点是缺少竞争,长期看可能被承包商“绑架”,另外,让承包方大包干会导致管理、技术方面过多依赖承包方,IT部门内部人员能力下降。
多方外包: 将IT业务根据一定的业务逻辑进行分割,譬如区分CRM、计费、物流、客服等模块,不同模块外包给不同的承包方。这种情况优点是多家参与,服务能力有比较,并且有一定的竞争。缺点是有问题时会出现多家扯皮,另外各个系统之间很多接口需要多方确定,开发和维护需要协调的工作比较多。
一般不是非常重要的系统可以采用单方外包,重要的系统最好还是采用多方外包,不要将鸡蛋放到一个篮子里。
外包的风险和应对
1、信息安全风险高
IT系统处理公司业务信息,其中包括一些公司敏感信息,包括公司的生产经营数据、客户敏感信息、系统核心资源信息等等。这些信息内部人员掌握一般信息安全比较可控,毕竟是内部自己人,如果外包人员全面接触到,信息安全风险会非常高,譬如倒卖用户敏感信息。这种情况下管理上需要加强信息安全流程管控、技术上通过单点登录、4A安全审计等方式方法来提升信息安全水平。
2、人员能力下降
在外包情况下自有人员是甲方,外包人员是乙方,很多事情由乙方外包处理,并且外包具体职责有时也并不十分清晰,人都是有惰性的,长期可能导致甲方人员将本该自己处理的事情都委托乙方处理,就像家里请了个保姆,时间长了主人扫地、做饭都不会了。
3、服务质量下降
一般外包商刚合作时会很积极配合工作,服务质量很高,但是随着接触越来越多,内部人员对开发、运维等把控不够专业和深入,特别是外包合同对外包服务质量的规定如果不是很科学的情况下,外包的服务质量会下降。为应对这种情况需要在合同中明确外包合同的服务质量(SLA),并且明确奖惩方式,另外内部必须有一支对外包出去的业务(包括开发、运维等流程)非常熟悉的骨干队伍,防止被外包商”忽悠“。
外包是一把双刃剑,用的好提升自己功力,用的不好也可能会伤到自己,自己必须有相应的能力来驾驭这把剑!
数字化时代,银行业务的快速发展,计算机的系统数量和部署规模均呈快速增长态势,且加上应用系统的微服务化,系统间的关联更为复杂,也相应提升了对运维系统的要求与难度。虽然银行内建立了较为全面的监控体系,但是面对千百万的告警风暴时,故障定位解决问题十分困难,特别不利于系统安全、持续、稳定运行。
数字化转型中,以用户为中心是驱动金融行业的核心基础。所以,对于像银行、证券公司这样拥有海量运维数据的金融行业来说,智能运维势在必行。采用先进的运维手段(智能运维)则是企业不断前行的源源动力。
说一个我们正在服务的客户案例吧,客户是一家商业银行。
这家商业银行通过擎创科技提供的夏洛克AIOps解决方案,建设了一套智能运维数据分析系统,集中收集和分析十多个系统的运维数据,包括应用系统日志、告警、性能指标、交易指标和网络性能指标等,并通过机器学习算法实现指标异常检测、关联分析和告警收敛,以此加快问题定位效率,保障系统运行。为了有效提高对异常情况的监测和未来趋势预测,提前发现系统隐患,该商业银行通过擎创夏洛克AI实验室,训练并生成了基于业务场景的多类算法,实现系统的单指标异常检测,极大降低系统故障发生的概率。
与此同时,该商业银行还用了擎创夏洛克指标解析中心和告警辨析中心,通过此实现多维指标关联分析,帮助快速发现和定位系统问题,提升排障效率;实现告警收敛,降低告警风暴,加快定位时间。目前告警压缩率达到了80%以上,运维人员的告警处理效率明显提高。实现了IT系统运维的智能化,为业务健康运转提高强力保障。
其实,擎创科技此前便服务过众多银行类客户,如中国银联、交通银行、浦发银行和宁波银行等,帮助其构建了智能化的运维平台,提升了客户运维效率,且目前很多项目都进入到二期、三期建设阶段。
当前it运维风险,随着企业数字业务it运维风险的快速发展和业务量it运维风险的攀升,企业信息系统架构的升级变迁,以及企业多套业务系统的在线运营,各类监控组件和应用系统间的关系错综复杂,系统运维的难度也急剧增加,且面临着巨大挑战。
在传统运维方式下,数据规模大且离散,数据治理和全面分析能力薄弱且依赖于经验和规则,运维十分被动,解决问题效率非常低下,运维的实用性大打折扣,难以满足当前主动运营的要求。
具体来说有以下几点:
发现问题难:企业在经年累月中布局it运维风险了诸多监控工具,但是监控手段阈值的设定单一,且一般都是静态阈值,而指标和告警的异常却是多样化的,这样就会造成大量的误报漏报现象。此外,目前绝大多数的监控工具,缺乏趋势预测能力,使得运维局面非常被动,导致发现问题十分困难。
根因定位难:发现问题时一般都是对问题进行定性分析,可能it运维风险了解到某一告警对应的指标波动是值得关注的,但是并不能因此确定造成这种现象具体根因。而且目前的监控工具,大多缺乏综合根因定界及定位分析的手段,即便对监控进行了集中管理,也难以通过单纯的几种指标进行根因定位。
数据治理难:当数字化建设进行到一定程度的时候,被管理对象的数据量相应的也是水涨船高,数据数量大、类别多且非常分散,很难通过某一指标体系来衡量系统的健康度,也没有一个统一的视角去判断数据质量的好坏优劣。
运营分析难:现有的大多数基础监控工具,多数都是从自己的管理阈例如系统管理、网络管理出发看待问题,缺乏端到端的分析能力,没办法以业务视角从综合运营分析的角度,去看待多样化指标对系统的影响。
而智能运维是一种全新的数字化运维能力,也将是数字化转型的必备能力。智能运维相对于传统运维模式而言,能够在运维数据治理、业务数字化风险、运维人力成本和业务侧影响力四个方面有本质的效能提升。
智能运维相对于传统运维模式而言,能够在四个方面有本质的效能提升:
运维数据治理。通过高性能实时处理的数据平台广泛采集、处理和分析数字化业务运行过程中的多样化运维数据,包括告警、指标、日志、配置以及运维工单等类别,不仅提升了运维大数据的治理能力,优化了数据质量,而且为进一步激活运维数据的价值打下了良好基础;
业务数字化风险。使运维人员不仅提升了历史运维数据的分析能力并且能够对实时数据进行异常检测和问题预判,有效降低数字化业务的运行风险,提升可用性、稳定性;
运维人力成本。使真正意义上的跨域根因定位成为可能,降低对专业运维人员经验技能的依赖,迅速缩短故障排查时间并有效降低人力成本;
业务侧影响力。以业务视角利用多元化数据提高运营分析和决策能力,比如端到端的分析业务交易状态,提供给业务、客服部门及时反馈和决策支持依据,充分增强业务影响力;
智能运维发展正如火如荼,Gartner预见其为下一代运维,认为到2022年将有近50%的企业用户部署智能运维。虽然目前不少企业已经在积极投入建设,也还有一些企业处在迷茫阶段,对这种趋势不太清晰,借用著名作家威廉吉布森的话,“未来已来,只是分布不均。”
随着IT建设的不断深入和完善,计算机硬软件系统的运行维护已经成为了各行各业各单位领导和信息服务部门普遍关注和不堪重负的问题,据统计,IT运维服务占到IT部门工作量的80%左右。
(1)IT运维工作忙而不受重视。
IT运维服务人员工作的一个普遍现象是“很忙碌,坐不下”,每个IT运维服务人员都很忙碌,到处在各个业务部门间解决和处理问题,就像“救火员”。虽然如此忙碌,但业务人员还是经常抱怨“找不到人”、“解决问题太慢”等等。IT运维服务人员的工作始终得不到业务部门的认可,而且工作量也难以量化。运维或信息部门作为单位的业务支撑部门,在信息系统的战略规划项目立项等工作中话语权较弱,更谈不上决策权,往往是项目建设完成之后才介入系统的管理和维护,等到发现问题为时已晚。
(2)IT系统复杂,维护难度高,风险压力大。
随着组织信息化的不断投入,组织的硬件设施、软件系统不断增加,软硬件设备的增加在一定程度上增加IT运维的复杂性,包括各类开发系统、各类应用架构、不同品牌厂商设备等等,需要不断增加人力投入,IT运维成本居高不下。对业务连续性要求较高的单位,系统一旦宕机损失是巨大的,运维部门压力可想而知。有的单位由于缺乏系统的资产管理,运维部门很难准确了解公司到底有多少IT资产,公司是否需要购置新机也缺少数据支撑。在年底审计时全团队奋战多日才能完成单位的IT资产清查工作
(3)技术人员难培养,流动性大。
大多数时候,运维人员都在进行着简单重复的工作,且很难得到最终用户的肯定,他们私下用“碌碌无为”、“穷忙族”来形容自己,人心涣散,自我认可度低,团队人员流动率较大。情况往往是某人好不容易成为熟练工了,却因为看不到职业前景或感觉不受重视而提出辞职。这些中坚力量的离职,会造成客户满意度和运维质量相当长一段时间内出现波动。
(4)服务商难管理,技术水平参差不齐,服务不及时,有问题不能及时解决。
IT运维服务外包存在一定风险,关键在于对于IT运维服务外包供应商的管理不到位,具体体现在招标环节疏于审查、过程监督环节疏于监管、以及事后评价环节疏于考核。通过在招标环节加强对供应商资质、能力水平、案例等考察可以有效包括准入关;通过在服务过程中加强监督可及时发现供应商服务提供能力的异常;通过事后评价可以建立供应商的退出机制,保证供应商提供优秀的服务。
发表评论
暂时没有评论,来抢沙发吧~