运维事件上报机制(运维事件上报机制是什么)

来源网友投稿 830 2023-02-09

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈运维事件上报机制,以及运维事件上报机制是什么对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享运维事件上报机制的知识,其中也会对运维事件上报机制是什么进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

有效运维的 on-call 机制

[编者按]本文作者为陈伯龙,云告警平台 OneAlert 创始人,著《云计算与 OpenStack 》,在IT运营管理、云计算方面从业10多年。

互联网技术的发展,离不开运维支撑工作,没有零bug的程序,没有不出问题的系统,问题故障不可怕,可怕的是没能有序的处理:

如何有效处理紧急事件驱动的工作,成为(特别是运维主管)运维工作的关键。我接触了大量的各类型公司运维,从初创、中小、大型公司,总结和分享一些大多公司通用的on-call机制,帮助有序的处理紧急事件:

基本上都是围绕人、流程、工具三方面进行,参考了ITIL的管理思路,大家感兴趣也可以参考下,特别是其中的ITIL V3的运营管理。

大多公司都用了zabbix和nagios、open-falcon等监控工具,对硬件、网络、应用进行监控。可能会存在监控分散问题:

告警集中化,就是所有的生产监控发现的告警事件集中到一起,这样我们盯着一个平台就够了,同样也容易分析问题,是不是相同和类似原因。

如果监控工具单一,集中化不是最必要的,如何有序处理才是最核心的。特别运维团队是3-5人到数十/百人,就很有必要梳理下支撑流程和响应机制了。

如果管理比较细一些,还会进行业务拆分,形成一个矩阵,例如一线、二线根据不同专业,如负责网络和负责不同应用的团队。
另外还要考虑告警严重的程度级别,进行差异化处理,要求严格的同学一般会建立响应级别[1-3]或[1-5]:

那么问题来了,规划和设计挺好,如何落地呢?目前看zabbix、nagios、open-falcon等监控工具更多是聚焦如何发现问题,支撑流程属于处理问题的范畴,或者是说管理范畴,这一点目前市面上合适工具较少:

接触过一个互联网金融公司,设计了非常规范化的流程和P0-P5级别应急处理方案,涉及了网络、云平台、近50个应用研发团队。

分派升级

排班管理

再好的流程和设计,当时没有及时收到通知和处理,那么就会很郁闷了,最后一公里问题解决方式:

还支持几点:不同级别、不同时间段的设置,例如晚上严重的电话通知,白天工作时间就不用了。
这里面还存在一个问题,当告警规模大了后,特别是告警风暴的话,很容易撑爆邮箱或者是手机短信了,所以接下来就聊下告警风暴规避的问题。

这个问题比较大,基本上有些监控工具做了一部分,目前看也是一个业界难题,简单来说:

我们目前做了一些尝试分享下:

机器学习告警合并

如果告警量很大,告警后续处理和跟踪往往会依赖于外部团队(部门外或公司外)。但是监控告警粒度太细了,可能很多告警都是一个事情。如上面的告警风暴中,由于应用程序故障,引发引发了大量的异常,之后又产生连锁反应,其实就是一个事情,只需要处理一个事情就行。
一般来说一线人员会采用邮件或者电话方式,直接通知对应负责人,但是这个就很难追踪和事后分析,所以一套事件管理机制。
ITIL规范的事件Incident流程很有参考价值,感兴趣同学参考下。事件工单需要:

事件单

影响范围和紧急程度的交叉矩阵影响到优先级

On-Call机制建立后,通过告警和事件数据分析、建立起以数据指标驱动的团队文化,有机会和大家分享。

OneA lert 是 OneAPM 旗下产品,是国内第一个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想阅读更多技术文章,请访问 OneAPM 官方技术博客 。

本文转自 OneAPM 官方博客

运维告警等级详解

互联网时代 IT 相关的衍生产品有很多,监控工具为其中的佼佼者。很多监控工具对于确保网站和应用的平稳运行做了非常多的工作,但是,对于告警产生到通知用户的过程,还有很大的改进空间。

在合理评估告警严重程度的基础上,确保通知合适的运维汪,对于快速有效解决事件至关重要。但是我们对告警等级的重要性以及如何设置告警等级来提高团队效率,还缺少必要的认识。针对该问题,以下几条快速指南可以供大家参考。

什么是告警等级?有什么重要性?

简单来说,告警等级是表征事件严重性的指标之一,取决于事件对用户体验以及网站或应用整体性能造成的负面影响的大小。

例如,导致网站崩溃的事件,被认为负面影响极大,告警等级也就较高;而一个Ping的问题有时不会很明显,被认为负面影响略小,告警等级也就较低。

告警等级的重要性体现在以下方面:

有助于减少和控制告警噪声的数量。

使得错误处理流程更为顺畅。

使你解决问题更有效率。

总而言之,根据告警等级不同,可以优先处理重要事件,避免干扰到不在职责范围内的无关人员。

怎样创建合适的团队告警等级规则?

确定告警等级的重要性,相信大家已经了解了,但如何创建一个适合整个团队事件严重程度的评估方法,是监控工具开发人员的棘手问题。

一般来说,评估告警等级过程需考虑以下3个方面:

1.严重性等级结构

2.团队结构

3.通信结构

1)严重性等级结构

严重性等级的主要目的是确保合适的人员能够知道问题,并按照严重程度来处理问题。一般来说,设置严重程度等级结构的最简单方法是根据商业价值来确定网站或应用的最关键部分。并且在团队中,并没有所谓的正确或错误的方式来判定严重性等级。要知道,重要的是了解团队如何划分具体的事件,并确保每个人都达成共识。

2)团队结构

清晰地认识团队结构并对告警进行有序分派,将提高整个团队的执行效率。为了更有序和有效的分派告警,我们应该注意几个问题:

告警处理需要涉及哪些人?

处理事件时,每个人的责任是什么?

告警要求在哪个环节通知哪些人?

3)通信结构

如果你不知道告警在团队结构内应该如何通信,那么建立通信结构将是创建严重性等级过程中最为困难的一环。

你可以这样考虑:

严重性等级结构:这个问题有多严重?

团队结构:这是谁的责任?

通信结构:如果问题发生,如何以及何时联系团队成员?

创建通信结构能将不同事件与团队中的不同角色联系起来,并根据时间紧迫度与错误频率添加更明确的操作。这样,可以确保通过恰当的渠道联系到合适的人员,且符合当前的情况。如果一个响应者不在线上,可通过告警升级机制确保团队中的其他成员得到通知。

根据团队结构,选择合适的通知渠道与阈值配置,意味着问题解决能更加高效,且不会牵涉到无关人员。
RIIL是国内领先的IT综合管理解决方案,通过IT资源综合监控、运维流程管理、3D数据中心管理三大模块帮助客户实现IT部门人财物的全面管理,提升IT服务质量以及运维管理绩效

如何构建完善的运维服务体系

运维服务体系建设的内容

1、运维管理制度建设

结合目前的实际情况运维事件上报机制,统一制定运维管理制度和规范。制度体系内容要涵盖机房管理、网络管理、资产管理、主机和应用管理、存储和备份管理、技术服务管理、安全管理、文档管理以及人员管理等类别。

2、运维技术服务平台

运维技术服务平台由运维事件响应中心、运维管理系统、运维知识库和运维辅助分析系统构成

3、运维服务管理系统

运维流程管理系统的建立运维事件上报机制,可以使日常的运维工作有序化运维事件上报机制,职责角色清晰化,能够有效地提高解决问题的速度和质量,使运维部门内的相关支持信息更为畅通、透明、完整,实现知识的积累和管理,更好地进行量化管理和设定优化指标,进行持续地服务改进,最终提高整个运维工作的效率和质量。

4、运维知识库建设

运行维护知识库由知识库平台和知识库内容两部分组成。知识库平台包括知识检索、知识维护与管理等,可以通过纯Web方式向服务请求对象提供基于Web的查询服务和检索服务,以完全共享知识库中的知识,在提供Web服务时,还可通过响应中心平台来即时地响应用户请求的服务。

5、运维辅助分析系统

以日常监控平台、运维响应中心、运维流程管理系统为基础,通过统计分析,运维事件上报机制了解运维服务能力与服务质量的现状,并可以进行趋势分析,为运维管理决策提供支持。

6、运行维护队伍建设

针对目前信息系统IT资源现状以及对技术支持的需求,组成各类别维护人员的专家队伍,集中的开展运行维护工作。

7、运行维护制度建立

为确保运行维护工作正常、有序、高效地进行,必须针对运行维护的管理流程和内容,制定相应的运行维护管理制度,实现各项工作的规范化管理。运维流程管理平台、运行维护知识库、运维辅助分析系统等的使用、维护的有关制度。

IT运维管理当前面临了哪些问题?

现在运维事件上报机制的企业几乎都是互联网办公运维事件上报机制,网络一旦出现问题运维事件上报机制,会对公司业务造成重大损失。而很多公司主业也不是IT,对网络问题不大懂,对于公司的网络问题往往都是请一个运维工程师处理。这些工程师有相应的专业能力,但管理人员的“不懂行”却让运维工作存在很多问题,主要有这五点:
1、缺乏有效的知识积累和共享,造成操作维护效率低下,类似的故障和问题仍然在不断发生,不断解决着,同时一旦某些掌握关键信息和技能的人发生意外状况(如生病,离职等),整个日常维护可能面临严峻的考验。
2、工程师的维护职责不是很清楚,每个人都大概知道自己该做什么,但是某个具体事情到底该谁负责,却没有明细定位。
3、IT网络运维人员大多没有养成记录习惯,每个月汇总报告时,对自己的工作量、所维护系统的整体情况还是一头雾水。而且纸质的故障处理报告信息要素不全,统计和查询都是头痛的问题。
4、运维人员几乎很少能准时下班,处理突发技术故障的事情也时有发生。运维人员往往像“救火队员”一样去处理故障。 在“救火式”的IT管理维护模式下,很难有效地进行服务管理,无法保证IT服务的有效性和一致性,IT管理往往处于无序状态。
5、对于运维工程师的工作绩效缺乏客观考核依据。他们到底做了哪些事情?哪些事情还没有做?工作完成的时效性怎么样?解决问题的质量怎么样?这些问题,只能凭印象得出一个个模糊的答案。
如何解决以上问题?
如何解决以上提到的问题是目前许多企业用户需要解决的问题,但首要关注的问题应是如何建立专业化分工的IT运维体系。
1、细化用户角色,力求提高运维效率
运维人力分工管理包含人员、岗位、角色等信息,如果这些信息没有统一规划,就无法进行统一配置。网络管理中的角色是根据ITIL标准进行划分的,是把IT运维各种事情(包括人员、资源、突发事故)分成不同级别和不同运维操作,以便有效的配置运维人力资源。因此,对于企业而言,IT运维的专业化分工本质上是对IT运维人力资源配置的优化。例如,明确运维事件分级处理流程,明确运维人员的职责、权限、义务和绩效考核标准。事实上许多实践也证明,明确每种运维事件的专业化分工处理流程,可以大大减少IT运维操作的随意性和混乱性,并能大大提高运维中的人力资源效率。
2、设立IT运维服务台,规范IT流程
在网管软件中,一般提供自助服务和运维服务台,自助服务台的作用是,给用户报故障,评价IT人员解决问题是否负责等。运维服务台是为了确定运维等级和引入优先处理原则。运维服务台主要承担:运行值班、故障监控、接受请求、工单派发及问题解决过程中的监测等工作内容。服务台就像是传统产业生产车间的调度分配员,它会不断的根据事件的等级进行匹配分工和调度。例如发生任何一个突发运维事件时,服务台会先检查并进行分类流转处理。运维人员可分为一线普通维护、二线技术专家和三线厂商专家。一线人员作为第一级问题处理人员,主要解决常规的运维问题;在一线人员不能解决的情况下,二线技术专家将迅速介入问题解决过程;三线技术专家来自产品供应商,由二线技术专家申请三线厂商专家的介入,使问题解决时间能够大大缩短。
3、FAQ和知识库,最大限度节省人力成本
提供FAQ和知识库两种方式,知识库是指对网络运维中的典型故障事件和常见问题解答的自助式处理流程。当出现故障时,用户先在自助式知识库寻找解决方法。如果问题没有得到解决,则用户利用服务台申请维护,用户申请将会移交给相应的负责人,负责人第一时间建立服务档案并一直实时监控,直到问题得到圆满的解决。因此,自助式知识库能帮助运维人员节省大量的时间,从而节省人力成本支出。
最后,专业的事情要用专门的人员来做,还要配合专业的方法。运维工程师是以技术为主的群体,他们往往关注于IT问题本身,主要通过提升自身技术实力来解决问题,不太关注技术之外的事情。这种情况下不可避免的会出现一些问题,这就需要管理人员来解决了。

IDC机房维护制度有那些??

给你一个全面的运维事件上报机制,我们以前给别人建机房时用的。 
一、机房人员日常行为准则

1、必须注意环境卫生。禁止在机房内吃食物、抽烟、随地吐痰;对于意外或工作过程中弄污机房地板和其它物品的运维事件上报机制,必须及时采取措施清理干净,保持机房无尘洁净环境。

2、必须注意个人卫生。工作人员仪表、穿着要整齐、谈吐文雅、举止大方。

3、机房用品要各归其位,不能随意乱放。

4、机房应安排人员值日,负责机房的日常整理和行为督导。

5、进出机房按要求必须换鞋,雨具、鞋具等物品要按位摆放整齐。

6、注意检查机房的防晒、防水、防潮,维持机房环境通爽,注意天气对机房的影响,下雨天时应及时主动检查和关闭窗户、检查去水通风等设施。

7、机房内部不应大声喧哗、注意噪音/音响音量控制、保持安静的工作环境。

8、坚持每天下班之前将桌面收拾干净、物品摆放整齐。

二、机房保安制度

1、出入机房应注意锁好防盗门。对于有客人进出机房,机房相关的工作人员应负责该客人的安全防范工作。最后离开机房的人员必须自觉检查和关闭所有机房门窗、锁定防盗装置。应主动拒绝陌生人进出机房。

2、工作人员离开工作区域前,应保证工作区域内保存的重要文件、资料、设备、数据处于安全保护状态。如检查并锁上自己工作柜枱、锁定工作电脑、并将桌面重要资料和数据妥善保存等等。

3、工作人员、到访人员出入应登记。

4、外来人员进入必须有专门的工作人员全面负责其行为安全。

5、未经主管领导批准,禁止将机房相关的钥匙、密码透露给其它人员,同时有责任对信息保密。对于遗失物品的情况要即时上报,并积极主动采取措施保证机房安全。

6、机房人员对机房安全制度上的漏洞和不完善的地方有责任及时提出改善建议。

7、禁止带领与机房工作无关的人员进出机房。

8、绝不允许与机房工作无关的人员直接或间接操纵机房任何设备。

9、出现机房盗窃、破门、火警、水浸、110报警等严重事件时,机房工作人员有义务以最快的速度和最短的时间到达现场,协助处理相关的事件。

三、机房用电安全制度

1、机房人员应学习常规的用电安全操作和知识,了解机房内部的供电、用电设施的操作规程。

2、机房人员应经常实习、掌握机房用电应急处理步骤、措施和要领。

3、机房应安排有专业资质的人员定期检查供电、用电设备、设施。

4、不得乱拉乱接电线,应选用安全、有保证的供电、用电器材。

5、在真正接通设备电源之前必须先检查线路、接头是否安全连接以及设备是否已经就绪、人员是否已经具备安全保护。

6、严禁随意对设备断电、更改设备供电线路,严禁随意串接、并接、搭接各种供电线路。

7、如发现用电安全隐患,应即时采取措施解决,不能解决的必须及时向相关负责人员提出解决。

8、机房人员对个人用电安全负责。外来人员需要用电的,必须得到机房管理人员允许,并使用安全和对机房设备影响最少的供电方式。

9、机房工作人员需要离开当前用电工作环境,应检查并保证工作环境的用电安全。

10、最后离开机房的工作人员,应检查所有用电设备,应关闭长时间带电运作可能会产生严重后果的用电设备。

11、禁止在无人看管下在机房中使用高温、炽热、产生火花的用电设备。

12、在使用功率超过特定瓦数的用电设备前,必须得到上级主管批准,并在保证线路保险的基础上使用。

13、在危险性高的位置应张贴相应的安全操作方法、警示以及指引,实际操作时应严格执行。

14、在外部供电系统停电时,机房工作人员应全力配合完成停电应急工作。

15、应注意节约用电。

四、机房消防安全制度

1、机房工作人员应熟悉机房内部消防安全操作和规则,了解消防设备操作原理、掌握消防应急处理步骤、措施和要领。

2、任何人不能随意更改消防系统工作状态、设备位置。需要变更消防系统工作状态和设备位置的,必须取得主管领导批准。工作人员更应保护消防设备不被破坏。

3、应定期进行消防演习、消防常识培训、消防设备使用培训。

4、如发现消防安全隐患,应即时采取措施解决,不能解决的应及时向相关负责人员提出解决。

5、应严格遵守张贴于相应位置的操作和安全警示及指引。

6、最后离开的机房工作人员,应检查消防设备的工作状态,关闭将会带来消防隐患的设备,采取措施保证无人状态下的消防安全。

五、机房用水制度

1、禁止将供水管道和设施安装在机房内。

2、应格遵守张贴于相应位置的安全操作、警示以及安全指引。

六、机房硬件设备安全使用制度

1、机房人员必须熟知机房内设备的基本安全操作和规则。

2、应定期检查、整理硬件物理连接线路,定期检查硬件运作状态(如设备指示灯、仪表),定期调阅硬件运作自检报告,从而及时了解硬件运作状态。

3、禁止随意搬动设备、随意在设备上进行安装、拆卸硬件、或随意更改设备连线、禁止随意进行硬件复位。

4、禁止在服务器上进行试验性质的配置操作,需要对服务器进行配置,应在其它可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。

5、对会影响到全局的硬件设备的更改、调试等操作应预先发布通知,并且应有充分的时间、方案、人员准备,才能进行硬件设备的更改。

6、对重大设备配置的更改,必须首先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改和调整,并应做好详细的更改和操作记录。对设备的更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先准备好后备配件和应急措施。

7、不允许任何人在服务器、交换设备等核心设备上进行与工作范围无关的任何操作。未经上级允许,更不允许运维事件上报机制他人操作机房内部的设备,对于核心服务器和设备的调整配置,更需要小组人员的共同同意后才能进行。

8、要注意和落实硬件设备的维护保养措施。

七、软件安全使用制度

1、必须定期检查软件的运行状况、定期调阅软件运行日志记录,进行数据和软件日志备份。

2、禁止在服务器上进行试验性质的软件调试,禁止在服务器随意安装软件。需要对服务器进行配置,必须在其它可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。

3、对会影响到全局的软件更改、调试等操作应先发布通知,并且应有充分的时间、方案、人员准备,才能进行软件配置的更改。

4、对重大软件配置的更改,应先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改,并应做好详细的更改和操作记录。对软件的更改、升级、配置等操作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先备份原有软件系统和落实好应急措施。

5、不允许任何人员在服务器等核心设备上进行与工作范围无关的软件调试和操作。未经上级允许,不允许带领、指示运维事件上报机制他人进入机房、对网络及软件环境进行更改和操作。

6、应严格遵守张贴于相应位置的安全操作、警示以及安全指引。

八、机房资料、文档和数据安全制度

1、资料、文档、数据等必须有效组织、整理和归档备案。

2、禁止任何人员将机房内的资料、文档、数据、配置参数等信息擅自以任何形式提供给其它无关人员或向外随意传播。

3、对于牵涉到网络安全、数据安全的重要信息、密码、资料、文档等等必须妥善存放。外来工作人员的确需要翻阅文档、资料或者查询相关数据的,应由机房相关负责人代为查阅,并只能向其提供与其当前工作内容相关的数据或资料。

4、重要资料、文档、数据应采取对应的技术手段进行加密、存储和备份。对于加密的数据应保证其可还原性,防止遗失重要数据。

九、机房财产登记和保护制度

1、机房的日常物品、设备、消耗品等必须有清晰的数量、型号登记记录,对于公共使用的物品和重要设备,必须建立一套较为完善的借取和归还制度进行管理。

2、机房工作人员应有义务安全和小心使用机房的任何设备、仪器等物品,在使用完毕后,应将物品归还并存放于原处,不应随意摆放。

3、对于使用过程中损坏、消耗、遗失的物品应汇报登记,并对责任人追究相关责任。

4、未经主管领导同意,不允许向他人外借或提供机房设备和物品。

十、团队精神和相互协作

1、机房工作小组人员应树立团队协作精神。

2、任何将要发生的给其他人员工作和安排产生影响的事情,或需要与其他工作人员互相协调的事情,应先提出和协调一致,禁止个人独断独行的作风。

3、工作分工要明确,责任要到位、工作计划要清晰,工作总结要具体。

4、小组人员有义务服从工作安排,并有义务对工作安排提出更加合理化建议和意见。

5、营造民主协作的工作环境,任何人员有权利和义务组织、联络其他小组成员、主管领导等展开讨论、开展会议、及时反映问题、做到相互沟通、协同工作。 关于运维事件上报机制和运维事件上报机制是什么的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 运维事件上报机制的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于运维事件上报机制是什么、运维事件上报机制的信息别忘了在本站进行查找喔。
上一篇:it运维主管职责(it运维经理岗位职责)
下一篇:告警处理 平台是什么(告警平台 开源)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~