应用运维事件处置基本原则(应用运维事件处置基本原则有哪些)

来源网友投稿 627 2023-02-17

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈应用运维事件处置基本原则,以及应用运维事件处置基本原则有哪些对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享应用运维事件处置基本原则的知识,其中也会对应用运维事件处置基本原则有哪些进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

在突发事件管理中应坚持的基本原则是什么

突发事件管理也叫危机管理。 转载以下资料供参考

危机管理原则
1.制度化原则危机发生的具体时间、实际规模、具体态势和影响深度,是难以完全预测的。这种突发事件往往在很短时间内对企业或品牌会产生恶劣影响。因此,企业内部应该有制度化、系统化的有关危机管理和灾难恢复方面的业务流程和组织机构。这些流程在业务正常时不起作用,但是危机发生时会及时启动并有效运转,对危机的处理发挥重要作用。国际上一些大公司在危机发生时往往能够应付自如,其关键之一是制度化的危机处理机制,从而在发生危机时可以快速启动相应机制,全面而井然有序地开展工作。因此,企业应建立成文的危机管理制度、有效的组织管理机制、成熟的危机管理培训制度,逐步提高危机管理的快速反应能力。在这方面,天津史克面临康泰克危机事件时的沉着应对就是一个典型的危机处理成功范例。相反,阜阳奶粉事件发生后,危机处理的被动和处理缺乏技巧性,反映出一些企业没有明确的危机反应和决策机制,导致机构混乱忙碌,效率低下。
2.诚信形象原则企业的诚信形象,是企业的生命线。危机的发生必然会给企业诚信形象带来损失,甚至危及企业的生存。矫正形象、塑造形象是企业危机管理的基本思路。在危机管理的全过程中,企业要努力减少对企业诚信形象带来的损失,争取公众的谅解和信任。只要顾客或社会公众是由于使用了该企业的产品而受到了伤害,企业就应该在第一时间向社会公众公开道歉以示诚意,并且给受害者相应的物质补偿。对于那些确实存在问题的产品应该不惜代价迅速收回,立即改进企业的产品或服务,以尽力挽回影响,赢得消费者的信任和忠诚,维护企业的诚信形象。“泰诺”中毒事件的处理维护了约翰逊公司的信誉,赢得舆论和公众的一致赞扬,为今后重新占领市场创造了极为有利的条件。相反,老字号南京冠生园原本也是个有竞争力的企业。2001年9月,中央电视台对其月饼陈馅的曝光,使南京冠生园遭到灭顶之灾,连带全国的月饼销量下降超过六成。企业的形象危机甚至造成“三株”、“秦池”等知名品牌的销声匿迹。3.信息应用原则随着信息技术日益广泛地被应用于政府和企业管理,良好的管理信息系统对企业危机管理的作用也日益明显。信息社会中,企业只有持续获得准确、及时、新鲜的信息资料,才能保证自己的生存和发展。预防危机必须建立高度灵敏、准确的信息监测系统,随时搜集各方面的信息,及时加以分析和处理,从而把隐患消灭在萌芽状态。在危机处理时,信息系统有助于有效诊断危机原因、及时汇总和传达相关信息,并有助于企业各部门统一口径,协调作业,及时采取补救的措施。2003年 8月的“进口假红牛”危机中,红牛维他命饮料公司及时查找信息来源,弄清事情真相。红牛公司立即同国内刊登该新闻的一些主要网站取得联系,向其说明事情真相。同时,红牛通知全国30多个分公司和办事处,要求它们向当地的经销商逐一说明事情真相,并坚定经销商对红牛的信心和信任。及时、准确的信息应用使“假红牛”的负面影响控制在一定范围之内,把危机对于品牌和公司的危害降低到了最低限度。4.预防原则防患于未然永远是危机管理最基本和最重要的要求。危机管理的重点应放在危机发生前的预防,预防与控制是成本最低、最简便的方法。为此,建立一套规范、全面的危机管理预警系统是必要的。现实中,危机的发生具有多种前兆,几乎所有的危机都是可以通过预防来化解的。危机的前兆主要表现在产品、服务等存在缺陷、企业高层管理人员大量流失、企业负债过高长期依赖银行贷款、企业销售额连续下降和企业连续多年亏损等等。因此,企业要从危机征兆中透视企业存在的危机,企业越早认识到存在的威胁,越早采取适当的行动,越可能控制住危机的发展。1985年,海尔集团总裁张瑞敏当着全体员工的面,将76台带有轻微质量问题的电冰箱当众砸毁,力求消除质量危机的隐患,创造出了“永远战战兢兢,永远如履薄冰”的独具特色的海尔生存理念,给人一种强烈的忧患意识和危机意识,从而成为海尔集团打开成功之门的钥匙。5.企业领导重视与参与原则企业高层的直接参与和领导是有效解决危机的重要措施。危机处理工作对内涉及到从后勤、生产、营销到财务、法律、人事等各个部门,对外不仅需要与政府与媒体打交道,还要与消费者、客户、供应商、渠道商、股东、债权银行、工会等方方面面进行沟通。如果没有企业高层领导的统一指挥协调,很难想象这么多部门能做到,口径一致、步调一致、协作支持并快速行动。由于中国企业更多趋向于人治,企业高层的不重视往往直接导致整个企业对危机麻木不仁、反应迟缓。这一点在中国表现得尤为突出。因此,企业应组建企业危机管理领导小组,担任危机领导小组组长的一般应该是企业一把手,或者是具备足够决策权的高层领导。在“非典”危机中,中国最高领导人的高度重视和参与对克服“非典”起到了重要的作用。
6.快速反应原则危机的解决,速度是关键。危机降临时,当事人应当冷静下来,采取有效的措施,隔离危机,要在第一时间查出原因,找准危机的根源,以便迅速、快捷地消除公众的疑虑。同时,企业必须以最快的速度启动危机应变计划并立刻制定相应的对策。如果是内因就要下狠心处置相应的责任人,给舆论和受害者一个合理的交代;如果是外因要及时调整企业战略目标,重新考虑企业发展方向;在危机发生后要时刻同新闻媒体保持密切的联系,借助公证、权威性的机构来帮助解决危机,承担起给予公众的精神和物质的补偿责任,做好恢复企业的事后管理,从而迅速有效的解决企业危机。在2003年的“进口假红牛”危机中,红牛公司临阵不慌,出手“快、准、狠”,将危机的负面影响减少到最小,从容地应对了这场关系品牌和产品的信任危机,体现出红牛危机管理的水平。7.创新性原则知识经济时代,创新已日益成为企业发展的核心因素。危机处理既要充分借鉴成功的处理经验,也要根据危机的实际情况,尤其要借助新技术、新信息和新思维,进行大胆创新。企业危机意外性、破坏性、紧迫性的特点,更需要企业采取超常规的创新手段处理危机。在遇到“非典”这种突发危机时,青岛啤酒公司通过“两个创新”牢牢地抓住了商机。一是渠道的创新。青啤在许多城市通过与供水系统联合,利用他们的配送网络,实现了“非接触”式的送货上门。第二是销售终端的创新。青啤改变以城市的酒店为重点的销售终端,把力量集中在小区、社区和农村市场,有计划、有步骤地进一步开发家庭消费市场这个终端。
8.沟通原则沟通是危机管理的中心内容。与企业员工、媒体、相关企业组织、股东、消费者、产品销售商、政府部门等利益相关者的沟通是企业不可或缺的工作。沟通对危机带来的负面影响有最好的化解作用。企业必须树立强烈的沟通意识,及时将事件发生的真相、处理进展传达给公众,以正视听,杜绝谣言、流言,稳定公众情绪,争取社会舆论的支持。在中美史克PPA遭禁事件中,中美史克在事发的第二天召开中美史克全体员工大会,向员工通报了事情的来龙去脉,宣布公司不会裁员。此举赢得了员工空前一致的团结,避免了将外部危机转化为内部危机。相反,三星集团主席李健熙是一个强势的领导者。在1997年决定进入汽车产业的时候,李健熙认为凭借三星当时的实力,做汽车没有问题。实际上,汽车工业早已经是生产大量过剩、生产能力超过需求的40%,世界级品牌正在为瓜分市场而激烈竞争。由于企业内部领导层缺乏沟通,部门经理不敢提出反对意见。结果是,三星汽车刚刚投产一年就关门大吉。李健熙不得不从自己的腰包里掏出20亿美元来安抚他的债主们。

IT运维管理当前面临了哪些问题?

现在的企业几乎都是互联网办公,网络一旦出现问题,会对公司业务造成重大损失。而很多公司主业也不是IT,对网络问题不大懂,对于公司的网络问题往往都是请一个运维工程师处理。这些工程师有相应的专业能力,但管理人员的“不懂行”却让运维工作存在很多问题,主要有这五点:
1、缺乏有效的知识积累和共享,造成操作维护效率低下,类似的故障和问题仍然在不断发生,不断解决着,同时一旦某些掌握关键信息和技能的人发生意外状况(如生病,离职等),整个日常维护可能面临严峻的考验。
2、工程师的维护职责不是很清楚,每个人都大概知道自己该做什么,但是某个具体事情到底该谁负责,却没有明细定位。
3、IT网络运维人员大多没有养成记录习惯,每个月汇总报告时,对自己的工作量、所维护系统的整体情况还是一头雾水。而且纸质的故障处理报告信息要素不全,统计和查询都是头痛的问题。
4、运维人员几乎很少能准时下班,处理突发技术故障的事情也时有发生。运维人员往往像“救火队员”一样去处理故障。 在“救火式”的IT管理维护模式下,很难有效地进行服务管理,无法保证IT服务的有效性和一致性,IT管理往往处于无序状态。
5、对于运维工程师的工作绩效缺乏客观考核依据。他们到底做了哪些事情?哪些事情还没有做?工作完成的时效性怎么样?解决问题的质量怎么样?这些问题,只能凭印象得出一个个模糊的答案。
如何解决以上问题?
如何解决以上提到的问题是目前许多企业用户需要解决的问题,但首要关注的问题应是如何建立专业化分工的IT运维体系。
1、细化用户角色,力求提高运维效率
运维人力分工管理包含人员、岗位、角色等信息,如果这些信息没有统一规划,就无法进行统一配置。网络管理中的角色是根据ITIL标准进行划分的,是把IT运维各种事情(包括人员、资源、突发事故)分成不同级别和不同运维操作,以便有效的配置运维人力资源。因此,对于企业而言,IT运维的专业化分工本质上是对IT运维人力资源配置的优化。例如,明确运维事件分级处理流程,明确运维人员的职责、权限、义务和绩效考核标准。事实上许多实践也证明,明确每种运维事件的专业化分工处理流程,可以大大减少IT运维操作的随意性和混乱性,并能大大提高运维中的人力资源效率。
2、设立IT运维服务台,规范IT流程
在网管软件中,一般提供自助服务和运维服务台,自助服务台的作用是,给用户报故障,评价IT人员解决问题是否负责等。运维服务台是为了确定运维等级和引入优先处理原则。运维服务台主要承担:运行值班、故障监控、接受请求、工单派发及问题解决过程中的监测等工作内容。服务台就像是传统产业生产车间的调度分配员,它会不断的根据事件的等级进行匹配分工和调度。例如发生任何一个突发运维事件时,服务台会先检查并进行分类流转处理。运维人员可分为一线普通维护、二线技术专家和三线厂商专家。一线人员作为第一级问题处理人员,主要解决常规的运维问题;在一线人员不能解决的情况下,二线技术专家将迅速介入问题解决过程;三线技术专家来自产品供应商,由二线技术专家申请三线厂商专家的介入,使问题解决时间能够大大缩短。
3、FAQ和知识库,最大限度节省人力成本
提供FAQ和知识库两种方式,知识库是指对网络运维中的典型故障事件和常见问题解答的自助式处理流程。当出现故障时,用户先在自助式知识库寻找解决方法。如果问题没有得到解决,则用户利用服务台申请维护,用户申请将会移交给相应的负责人,负责人第一时间建立服务档案并一直实时监控,直到问题得到圆满的解决。因此,自助式知识库能帮助运维人员节省大量的时间,从而节省人力成本支出。
最后,专业的事情要用专门的人员来做,还要配合专业的方法。运维工程师是以技术为主的群体,他们往往关注于IT问题本身,主要通过提升自身技术实力来解决问题,不太关注技术之外的事情。这种情况下不可避免的会出现一些问题,这就需要管理人员来解决了。

MTTR 已死,CIRT 长存

IT 运维圈子的玩法正在发生变化,这意味着过去的规则越来越不合理。机构需要适当环境中的准确的、可理解的、且可操作的指标,以衡量运维绩效并推动关键业务转型。

越多的客户使用现代工具,他们管理的事件类型的变化越多,将所有这些不同事件粉碎到一个桶中以计算平均解决时间来表示运维绩效的意义就越少,这就是 IT 一直以来在做的事情。

历史 表明,在分析信号以防止错误和误解时,背景信息是关键。例如,在 20 世纪 80 年代,瑞典建立了一个分析水听器信号的系统,以提醒他们在瑞典当地水域出现的俄罗斯潜艇。瑞典人使用了他们认为代表一类俄罗斯潜艇的声学特征 —— 但实际上是鲱鱼在遇到潜在捕食者时释放的 气泡声 。这种对指标的误解加剧了各国之间的紧张关系,几乎导致了战争。

平均解决时间(Mean Time To Resolve)(MTTR)是运维经理用于获得实现目标洞察力的主要运维绩效指标。这是一项基于 系统可靠性工程(systems reliability engineering)的古老措施。MTTR 已被许多行业采用,包括制造、设施维护以及最近的 IT 运维,它代表了解决在特定时间段内创建的事件所需的平均时间。

MTTR 的计算方法是将所有事件(从事件创建时间到解决时间)所需的时间除以事件总数。

正如它所说的,MTTR 是 所有 事件的平均值。MTTR 将高紧急事件和低紧急事件混为一谈。它还会重复计算每个单独的、未分组的事件,并得出有效的解决时间。它包括了在相同上下文中手动解决和自动解决的事件。它将在创建了几天(或几个月)甚至完全被忽略的事件混合在一起。最后,MTTR 包括每个小的瞬态突发事件(在 120 秒内自动关闭的事件),这些突发事件要么是非问题噪音,要么已由机器快速解决。

MTTR 将所有事件(无论何种类型)抛入一个桶中,将它们全部混合在一起,并计算整个集合中的“平均”解决时间。这种过于简单化的方法导致运维执行方式的的噪音、错误和误导性指示。

关键事件响应时间(Critical Incident Response Time)(CIRT)是评估运维绩效的一种更准确的新方法。PagerDuty 创立了 CIRT 的概念,但该方法可供所有人免费使用。

应用这些假设对响应时间有什么影响?简而言之,效果非常非常大!

由于 MTTR 计算的响应时间长得多、人为地偏差,因此它是运维绩效较差的一个指标。另一方面,CIRT 是一项有意的措施,专注于对业务最重要的事件。

与 CIRT 一起使用的另一个关键措施是确认和解决事故的百分比。这很重要,因为它验证 CIRT(或 MTTA / MTTR)是否值得利用。例如,如果 MTTR 结果很低,比如 10 分钟,那听起来不错,但如果只有 42% 的事件得到解决,那么 MTTR 是可疑的。

总之,CIRT 和确认、解决事件的百分比形成了一组有价值的指标,可以让你更好地了解运营的执行情况。衡量绩效是提高绩效的第一步,因此这些新措施对于实现机构的可持续、可衡量的改进周期至关重要。

via: https://opensource.com/article/19/7/measure-operational-performance

作者: Julie Gunderson 选题: lujun9972 译者: wxy 校对: wxy

关于应用运维事件处置基本原则和应用运维事件处置基本原则有哪些的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 应用运维事件处置基本原则的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于应用运维事件处置基本原则有哪些、应用运维事件处置基本原则的信息别忘了在本站进行查找喔。
上一篇:it运维技术支持(提升it运维服务)
下一篇:性能测试视频教程(性能测试视频教程全集)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~