AIOps 一场颠覆传统运维的盛筵
825
2023-02-09
本文目录一览:
IT 运维圈子的玩法正在发生变化运维事件解决时长,这意味着过去的规则越来越不合理。机构需要适当环境中的准确的、可理解的、且可操作的指标,以衡量运维绩效并推动关键业务转型。
越多的客户使用现代工具,他们管理的事件类型的变化越多,将所有这些不同事件粉碎到一个桶中以计算平均解决时间来表示运维绩效的意义就越少,这就是 IT 一直以来在做的事情。
历史 表明,在分析信号以防止错误和误解时,背景信息是关键。例如,在 20 世纪 80 年代,瑞典建立了一个分析水听器信号的系统,以提醒他们在瑞典当地水域出现的俄罗斯潜艇。瑞典人使用了他们认为代表一类俄罗斯潜艇的声学特征 —— 但实际上是鲱鱼在遇到潜在捕食者时释放的 气泡声 。这种对指标的误解加剧了各国之间的紧张关系,几乎导致了战争。
平均解决时间(Mean Time To Resolve)(MTTR)是运维经理用于获得实现目标洞察力的主要运维绩效指标。这是一项基于 系统可靠性工程(systems reliability engineering)的古老措施。MTTR 已被许多行业采用,包括制造、设施维护以及最近的 IT 运维,它代表了解决在特定时间段内创建的事件所需的平均时间。
MTTR 的计算方法是将所有事件(从事件创建时间到解决时间)所需的时间除以事件总数。
正如它所说的,MTTR 是 所有 事件的平均值。MTTR 将高紧急事件和低紧急事件混为一谈。它还会重复计算每个单独的、未分组的事件,并得出有效的解决时间。它包括了在相同上下文中手动解决和自动解决的事件。它将在创建了几天(或几个月)甚至完全被忽略的事件混合在一起。最后,MTTR 包括每个小的瞬态突发事件(在 120 秒内自动关闭的事件),这些突发事件要么是非问题噪音,要么已由机器快速解决。
MTTR 将所有事件(无论何种类型)抛入一个桶中,将它们全部混合在一起,并计算整个集合中的“平均”解决时间。这种过于简单化的方法导致运维执行方式的的噪音、错误和误导性指示。
关键事件响应时间(Critical Incident Response Time)(CIRT)是评估运维绩效的一种更准确的新方法。PagerDuty 创立了 CIRT 的概念,但该方法可供所有人免费使用。
应用这些假设对响应时间有什么影响运维事件解决时长?简而言之,效果非常非常大运维事件解决时长!
由于 MTTR 计算的响应时间长得多、人为地偏差,因此它是运维绩效较差的一个指标。另一方面,CIRT 是一项有意的措施,专注于对业务最重要的事件。
与 CIRT 一起使用的另一个关键措施是确认和解决事故的百分比。这很重要,因为它验证 CIRT(或 MTTA / MTTR)是否值得利用。例如,如果 MTTR 结果很低,比如 10 分钟,那听起来不错,但如果只有 42% 的事件得到解决,那么 MTTR 是可疑的。
总之,CIRT 和确认、解决事件的百分比形成了一组有价值的指标,可以让运维事件解决时长你更好地了解运营的执行情况。衡量绩效是提高绩效的第一步,因此这些新措施对于实现机构的可持续、可衡量的改进周期至关重要。
via: https://opensource.com/article/19/7/measure-operational-performance
作者: Julie Gunderson 选题: lujun9972 译者: wxy 校对: wxy
IT运维工作报告
为满足公司的快速发展,提升业务部门网络办公效率,提升it服务意识,it运维工程师按照sla协议承诺受理公司用户提交的it服务请求,包括用户使用网络、服务器、电脑终端及周边设备等设施过程中软硬件维护、事件处理、操作指导、资讯指导等,提供规范、稳定、持续、高质量的it可用资源和服务。
一、分担部门kpi指标,实现部门sla承诺
1、事件管理
a.通过主动积极服务或热线电话和邮箱受理等公司用户提交的it服务请求;
b.及时记录所有用户的事件,保证记录完整率达标;
c.在sla承诺的`时间内响应用户的事件,响应及时率达标;
d 对用户事件进行规范的分类、分级,并按事件级别不同要求进行响应和处理;
e.在承诺的时间内处理用户事件,或按规范传递给高一级技术支持,保证事件处理及时率达标;
f.合运用服务规范、沟通技巧和专业技能处理用户事件,并记录处理过程及方案,保证事件处理平均时间达标;
g.规范跟踪用户事件的处理进展,最终关闭事件或提交bug立项,保证事件解决率达标;
h.定期抽样回访用户和汇总用户意见,进行自我批判和持续改善用户满意度,保证用户满意度达标,用户投诉率在承诺范围以内;
i.承诺日平均事件处理数量,主动接管处理事件,高峰期需要灵活调整事件平均处理时长;
j.维值班人员按规范跟踪突发事件以及通报相关人员,保证跟踪正确率达标;
k.对本岗负责的事件跟踪处理,根据事件处理经验,提出合理化建议,将各类隐患消除在可控范围内;
l.养成良好工作习惯,做到事前有计划、事中有控制、事后有反馈、完成有记录;
2、配置管理
a.it资产配置管理:对it资产生命周期进行管理,包括分类统计、预购、选购审核、转移审核、报废审核,保证配置管理正确率达标;
b.建设案例库:累积和提炼工程师的事件处理经验制作成案例,并持续丰富运维案例库供查询,案例覆盖已知事件的比率达标,不断提高运维工程师工作效率;
c.it系统配置信息管理:定期更新网络及应用系统描述信息及技术支持信息配置,保证最新;
3、问题管理
a.对事件进行统计分析,找出疑难、重复发生的事件,纳入问题管理流程,分析问题产生的根本原因,确定可能解决的方案,需要修改网络或应用系统配置时提交变更申请触发变更管理流程。
4、发布管理
a.运维值班人员按规范统一发布信息部网络及应用系统正式公告、变更公告、特殊公告等,正确率达标;
二、其他运维工作
a.承担新员工导师工作,辅导新员工快速熟悉公司文化、环境、工作岗位及提升技能,为新员工顺利通过试用期提供保障;
b.持续反省自身的工作、总结工作中存在的不足和可改善之处,积极对部门运作提出改善建议;
c.积极参加公司重点应用项目的培训并按事件管理规范提供支持,如sap、oa系统等;
d.应部门发展需要在不影响现有工作的基础上主动承担其他项目支持,如网络、服务器,程控交换机等;
e.共享个人的技术经验,主持运维内部讲座;
f.积极参加信息部各类培训,有计划地进行自我学习,不断提升自身专业技能;
g.对重点维护设备进行定期巡检并记录,巡检及时率和正确率达标;
三、其他工作
a.担任it讲师,应其他部门邀请提供it技能培训,提高其他部门办公人员的it操作水平;
b.贯彻执行公司理念,积极完成上级分配的临时任务;
发表评论
暂时没有评论,来抢沙发吧~