运维事件解决时长（运维事件处理流程）

来源网友投稿 825 2023-02-09

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本篇文章给大家谈谈运维事件解决时长，以及运维事件处理流程对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。今天给各位分享运维事件解决时长的知识，其中也会对运维事件处理流程进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、IT运维中事件管理中的服务请求有没有响应时间和解决时间？是和事件要求是一样的么？
2、MTTR 已死，CIRT 长存
3、IT运维工作报告
4、如何提高运维管理工作效率？

IT运维中事件管理中的服务请求有没有响应时间和解决时间？是和事件要求是一样的么？

在ITIL的事件管理（Incident Management）流程中运维事件解决时长，有关于SLA服务级别的具体要求。
其中运维事件解决时长，响应时间（Accept Time）和解决时间（Resolve Time）是非常重要的两个时间运维事件解决时长，响应时间代表的是对事件开始启动受理及响应的时间，解决时间是最终问题被处理完成的时间。两者的时间差就是解决时长。
而解决时长对应的就是SLA的服务级别中优先级的具体要求。优先级=紧急度*影响度。
这和事件要求及事件来源都不是一个概念。
例如当影响度为高、紧急度也为高的一个case，优先级就是最高级，对于解决时长要求是10分钟。
影响度为中、紧急度为低的一个case，优先级为低，对应解决时长要求是4小时。
这里可以做成一个矩阵表。具体可以百度搜一下事件流程优先级矩阵。
希望可以帮到运维事件解决时长你。

运维事件解决时长（运维事件处理流程）

MTTR 已死，CIRT 长存

IT 运维圈子的玩法正在发生变化运维事件解决时长，这意味着过去的规则越来越不合理。机构需要适当环境中的准确的、可理解的、且可操作的指标，以衡量运维绩效并推动关键业务转型。

越多的客户使用现代工具，他们管理的事件类型的变化越多，将所有这些不同事件粉碎到一个桶中以计算平均解决时间来表示运维绩效的意义就越少，这就是 IT 一直以来在做的事情。

历史表明，在分析信号以防止错误和误解时，背景信息是关键。例如，在 20 世纪 80 年代，瑞典建立了一个分析水听器信号的系统，以提醒他们在瑞典当地水域出现的俄罗斯潜艇。瑞典人使用了他们认为代表一类俄罗斯潜艇的声学特征 —— 但实际上是鲱鱼在遇到潜在捕食者时释放的气泡声。这种对指标的误解加剧了各国之间的紧张关系，几乎导致了战争。

平均解决时间(Mean Time To Resolve)（MTTR）是运维经理用于获得实现目标洞察力的主要运维绩效指标。这是一项基于系统可靠性工程(systems reliability engineering)的古老措施。MTTR 已被许多行业采用，包括制造、设施维护以及最近的 IT 运维，它代表了解决在特定时间段内创建的事件所需的平均时间。

MTTR 的计算方法是将所有事件（从事件创建时间到解决时间）所需的时间除以事件总数。

正如它所说的，MTTR 是所有事件的平均值。MTTR 将高紧急事件和低紧急事件混为一谈。它还会重复计算每个单独的、未分组的事件，并得出有效的解决时间。它包括了在相同上下文中手动解决和自动解决的事件。它将在创建了几天（或几个月）甚至完全被忽略的事件混合在一起。最后，MTTR 包括每个小的瞬态突发事件（在 120 秒内自动关闭的事件），这些突发事件要么是非问题噪音，要么已由机器快速解决。

MTTR 将所有事件（无论何种类型）抛入一个桶中，将它们全部混合在一起，并计算整个集合中的“平均”解决时间。这种过于简单化的方法导致运维执行方式的的噪音、错误和误导性指示。

关键事件响应时间(Critical Incident Response Time)（CIRT）是评估运维绩效的一种更准确的新方法。PagerDuty 创立了 CIRT 的概念，但该方法可供所有人免费使用。

应用这些假设对响应时间有什么影响运维事件解决时长？简而言之，效果非常非常大运维事件解决时长！

由于 MTTR 计算的响应时间长得多、人为地偏差，因此它是运维绩效较差的一个指标。另一方面，CIRT 是一项有意的措施，专注于对业务最重要的事件。

与 CIRT 一起使用的另一个关键措施是确认和解决事故的百分比。这很重要，因为它验证 CIRT（或 MTTA / MTTR）是否值得利用。例如，如果 MTTR 结果很低，比如 10 分钟，那听起来不错，但如果只有 42％的事件得到解决，那么 MTTR 是可疑的。

总之，CIRT 和确认、解决事件的百分比形成了一组有价值的指标，可以让运维事件解决时长你更好地了解运营的执行情况。衡量绩效是提高绩效的第一步，因此这些新措施对于实现机构的可持续、可衡量的改进周期至关重要。

via: https://opensource.com/article/19/7/measure-operational-performance

作者： Julie Gunderson 选题： lujun9972 译者： wxy 校对： wxy

IT运维工作报告

为满足公司的快速发展，提升业务部门网络办公效率，提升it服务意识，it运维工程师按照sla协议承诺受理公司用户提交的it服务请求，包括用户使用网络、服务器、电脑终端及周边设备等设施过程中软硬件维护、事件处理、操作指导、资讯指导等，提供规范、稳定、持续、高质量的it可用资源和服务。

一、分担部门kpi指标,实现部门sla承诺

1、事件管理

a.通过主动积极服务或热线电话和邮箱受理等公司用户提交的it服务请求;

b.及时记录所有用户的事件，保证记录完整率达标;

c.在sla承诺的`时间内响应用户的事件，响应及时率达标;

d 对用户事件进行规范的分类、分级，并按事件级别不同要求进行响应和处理;

e.在承诺的时间内处理用户事件，或按规范传递给高一级技术支持，保证事件处理及时率达标;

f.合运用服务规范、沟通技巧和专业技能处理用户事件，并记录处理过程及方案，保证事件处理平均时间达标;

g.规范跟踪用户事件的处理进展，最终关闭事件或提交bug立项，保证事件解决率达标;

h.定期抽样回访用户和汇总用户意见，进行自我批判和持续改善用户满意度，保证用户满意度达标，用户投诉率在承诺范围以内;

i.承诺日平均事件处理数量，主动接管处理事件，高峰期需要灵活调整事件平均处理时长;

j.维值班人员按规范跟踪突发事件以及通报相关人员，保证跟踪正确率达标;

k.对本岗负责的事件跟踪处理，根据事件处理经验，提出合理化建议，将各类隐患消除在可控范围内;

l.养成良好工作习惯，做到事前有计划、事中有控制、事后有反馈、完成有记录;

2、配置管理

a.it资产配置管理：对it资产生命周期进行管理，包括分类统计、预购、选购审核、转移审核、报废审核，保证配置管理正确率达标;

b.建设案例库：累积和提炼工程师的事件处理经验制作成案例，并持续丰富运维案例库供查询，案例覆盖已知事件的比率达标，不断提高运维工程师工作效率;

c.it系统配置信息管理：定期更新网络及应用系统描述信息及技术支持信息配置，保证最新;

3、问题管理

a.对事件进行统计分析，找出疑难、重复发生的事件，纳入问题管理流程，分析问题产生的根本原因，确定可能解决的方案，需要修改网络或应用系统配置时提交变更申请触发变更管理流程。

4、发布管理

a.运维值班人员按规范统一发布信息部网络及应用系统正式公告、变更公告、特殊公告等，正确率达标;

二、其他运维工作

a.承担新员工导师工作，辅导新员工快速熟悉公司文化、环境、工作岗位及提升技能，为新员工顺利通过试用期提供保障;

b.持续反省自身的工作、总结工作中存在的不足和可改善之处，积极对部门运作提出改善建议;

c.积极参加公司重点应用项目的培训并按事件管理规范提供支持，如sap、oa系统等;

d.应部门发展需要在不影响现有工作的基础上主动承担其他项目支持，如网络、服务器，程控交换机等;

e.共享个人的技术经验，主持运维内部讲座;

f.积极参加信息部各类培训，有计划地进行自我学习，不断提升自身专业技能;

g.对重点维护设备进行定期巡检并记录，巡检及时率和正确率达标;

三、其他工作

a.担任it讲师，应其他部门邀请提供it技能培训，提高其他部门办公人员的it操作水平;

b.贯彻执行公司理念，积极完成上级分配的临时任务;

如何提高运维管理工作效率？

1。以终为始
以终为始是一种以结果为导向的思维方式，提示人们在做事情前要先明确做事情的最终目的，也就是“不忘初心，方得始终”。数据中心的终极目标是支持业务系统的不间断运行。在接手一个数据中心的运维任务之前，我们首先需要明确业务连续性目标，然后才能制定相应的运维策略。
2。以人为本
70%的数据中心故障是由人为造成的。与此同时，即使有最先进的监控系统，数据中心内无论主动保养操作，还是应急反应，都还需要依赖于人员的最终决策和操作。所以，配备足够的人员、有责任心、经验丰富的人员、对于数据中心的安全运行至关重要。
3。培训与学习
学习是一种修炼。有一种说法“最好的运维团队只不过是犯了足够的错误就修炼出来的”。数据中心基础设施牵涉到电力、暖通、弱电、消防、建筑等诸多专业，对于数据中心运维团队来说，需要学习的专业知识非常多。同时，每一个数据中心的配置和特定的操作流程都不完全相同。因此，培训与学习应该成为运维团队管理的一个重要组成部门。
4。建立管理体系
数据中心基础设施的运维管理工作的管理对象包括整个庞大的基础设施、运维团队、服务对象(IT部门或者IDC客户)，是一项系统性很强的工作，需要建立起一个管理体系。在整个运维管理系统体系中最重要的三个方面是设备保养体系、与所有相关部门的沟通机制、以及支持整个数据中心生命周期管理的财务预算体系。
5。规范操作流程
任何规范化的企业管理，都不可避免地需要引入流程，数据中心运维管理也不例外。完全基于个人经验和判断的操作，往往隐藏着重大的故障风险。数据中心就是要强化流程管理。任何重要的操作，必须严格按照流程执行。建立流程文化是数据中心规范化管理的一个重要环节。数据中心最重要的三类流程是标准操作流程(SOP)，维护保养操作流程(MOP)，和应急相应流程(EOP)。
6。动态管控
除了之前提到的管理体系和操作流程这些相对静态的工作以外，数据中心还需要进行动态的管控。近几年，IT负载的动态性表现得越来越明显。一方面，IT设备的增加速度比较快。新的业务系统上线可能导致IT负载在短期内有较大的增加。另一方面，企业大量采用虚拟化技术以后，可能会出现机房内各机柜的IT负载在一天范围内有较大变化的情况。基础设施运维团队需要针对这种IT负载的动态性作出相应的对策。
7。持续改善
大型数据中心的出现只是近几年的事情。当数据中心超过一定规模的时候，管理变得复杂，已经超越原来简单的依赖于少数运维人员的责任心的时代，需要的是完整的管理思想和方法论。国内数据中心基础设施运维体系的成熟度大致处于三个等级的状态：基础级、成长级、文化级。
8、用运维管理工具
实践已经证明，用一个优秀的运维管理系统可以大幅度的提升运维管理效率。可以理顺运维流程，并对每一个运维事件进行时间限制。督促运维工程师解决故障。另外，运维经理可以从PC或者移动端随时关注运维事件的进程。运维管理工具的知识库、配置管理、拓扑图、监控管理等功能，也是提升运维效率的有效功能。关于运维事件解决时长和运维事件处理流程的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。运维事件解决时长的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于运维事件处理流程、运维事件解决时长的信息别忘了在本站进行查找喔。

标签：运维数据 IT 工作学习

暂时没有评论，来抢沙发吧~

运维事件解决时长（运维事件处理流程）

IT运维中事件管理中的服务请求有没有响应时间和解决时间？是和事件要求是一样的么？

MTTR 已死，CIRT 长存

IT运维工作报告

如何提高运维管理工作效率？

AIOps 一场颠覆传统运维的盛筵

AIOps 平台的误解，挑战及建议（中），AIOps常见的误解

监控数据的可视化分析神器 Grafana 的告警实践