睿象云高科：事件管理平台应用价值浅析

作者:admin 发布时间:2021-12-24 阅读: 次

现代经济学之父亚当·斯密在“西方经济学圣经《国富论》的开篇第一句话说道：“劳动生产力最大的进步，以及劳动在任何地方运用中体现出的技能、熟练度和判断力的提高，都是分工的结果。”

事件管理的定位

事件管理（Event Management）作为填补传统 IT 运维管理理论三驾马车——“监、管、控”之间空白领域的新物种，它的出现也正是我们向 IT 运维管理不断要效率的必然结果。

“监” 好比感官系统，通过眼耳口鼻手尽可能多的获取事务的状态和变化信息；
“管” 好比循环系统，保障各类信息在不同环节的正常流转；
“控” 好比运动系统，负责根据信息和变化做出应激响应。

当我们面对日益纷繁复杂的世界，一家现代企业在 IT 运维管理方面，如果只具备“监”、“管”、“控”三种能力是远远不够的。就像高等智慧生物需要更加发达的神经系统来加强其他系统之间更高效的协作一样，IT 运维管理也需要从自动化运维向智能化运维演进。事件管理就是运用智能化的手段在“监”、“管”、“控”之间提供更高效连接的新生代神经中枢。它针对各种“监”产生的事务状态和变化信息进行加工和分析，针对触发各种“管”、“控”的故障和事件进行收敛和管理，在信息和决策之间提供更加准确和丰富的支撑。

睿象云高科：事件管理平台应用价值浅析 (图1)

图：事件管理是 IT 运维管理的神经中枢

为了更进一步理解事件，我们再来看一个例子。一辆开启了 L4/L5 级别自动驾驶能力的汽车在公路上行驶，首先自动驾驶系统需要通过激光雷达和 360° 摄像系统实时采集道路上的各种信息，系统再利用降噪、过滤、模式发现等手段对采集信息进行关键信息识别和分析，然后通过匹配的驾驶场景自动的应用驾驶模式，例如：前方无车辆时，在限速要求下进行提速；前方车辆减速或侧前方车辆并线时，采取制动措施等。在这套系统里面，我们可以分别找到IT运维管理监管控以及事件管理相对应的位置。

02

事件管理和故障管理的区别

那么什么是事件管理？故障管理又是什么？他们有什么区别呢？在讨论事件和故障管理之前，我们先聊聊事件、告警、故障这三个基本概念。

事件是事务状态的客观描述，没有好坏之分。它由一个或一组相关要素组成，这些要素已被记录，并可被改变。例如：2021年6月30日20时30分40秒，OA 系统身份认证服务进行了升级，从v1.5升级至v1.6。

告警是一类特殊的事件，它是主观判定的事务异常状态的描述，它被定义和存在于监控工具之中。例如：2021年7月1日7时45分39秒，10.128.1.12磁盘空间利用率为80%，级别为警告。会产生这样一条告警信息，是因为我们为服务器的磁盘空间利用率主观设定了80%这样一个阈值。

故障则是由一个或多个相关事件和告警所引发，反映业务运行或用户体验问题，直接影响到客户。如前所示，我们应该把磁盘空间利用率为80%，磁盘空间利用率为90%，磁盘空间利用率为99%，这三个告警将预示着一个故障——2021年7月1日8时15分21秒，OA 系统无法访问。因为这个事件集合表明磁盘服务质量在不断下降，OA 系统运行将会出现问题，这会影响客户的体验。

简而言之，事件是客观事实，告警是主观判定，故障是客观影响。

再回到事件管理和故障管理。事件管理（Event Management）是从客观存在的现象出发，通过甄别、加工，预判可能的风险；并从最终的影响出发，通过回溯、分析，找出导致风险的根因。事件管理的目标是在海量的客观事实和故障之间，快速找到两者之间的关联关系，为团队进行故障修复和决策提供可靠依据。

在 ITIL 实践中，Incident Management 通常翻译为事件管理，属于ITSM或者文章开篇所说的“管”的范畴。为了更好地区分 Incident 和 Event 的差异，我们在这里将 Incident Management 翻译为故障管理。在 ITIL 中 Incident Management 是一个被动性的任务，也就是减少或消除存在或可能存在于 IT 服务中的干扰因素给 IT 服务带来的影响，以确保用户可以尽快恢复自己的正常工作。故障管理的目标是要在给用户和公司正常的业务活动带来最小影响的情况下，尽快恢复到 SLA 中定义的正常服务级别。故障管理需要保留故障的有效记录以便能够权衡并改进处理流程，给其他的服务管理流程提供合适的信息，以及正确报告进展情况。

事件管理聚焦在故障可能产生前的识别、判断和追因。故障管理则是聚焦在故障产生后如果通过流程化手段快速恢复业务。我们可以将二者看做围绕故障处理的一体两面。事件管理里作为连接监控工具和故障管理的重要中间环节，在日常 IT 运维过程中发挥着重要的作用。如果我们试想缺少了事件管理，那么大量的冗余的、无关的监控告警会直接触发 ITSM 的 Incident Management 流程，造成故障处理流程的堆积和效率下降。

03

事件管理平台的价值

过去我们在寻找现象与故障之间的关联关系时，更多的依赖处理人员自身的知识储备和工作经验。而今天我们可以通过各种工具和平台来提升处理效率，事件管理平台就是一种选择。
那么对于企业来说，事件管理平台都有哪些核心价值呢？

1

团队效率的提升，包括故障处理效率和人员管理效率

传统模式下，各类监控工具的事件和告警信息会通过邮件分别派发到相关运维人员手头，形成一个典型的多对多沟通网络。各类无关信息没有经过收敛，在不同的人员之间传递，造成信息传递效率低下。海量信息也是影响决策效率的一个重要因素，大量的信息噪音，如：重复的、无关的告警，极易让运维人员感到疲劳，从而造成运维人员错失重要信息。一旦个别人员错漏关键信息，又缺少有效的补偿提醒或升级机制，很可能导致故障影响时长和范围的扩大。如何快速识别关键信息，并在第一时间确保信息到达对的人，就变得非常重要。

事件管理平台通过将 IT 系统中各类事件和信息的集中化管理，并通过人工智能算法或规则自动甄别海量事件中心的关键信息，从内容、级别、频度等多个维度对原始数据进行分析，有效降低事件中的无效噪音，提升故障传递和分析的效率。同时，事件管理平台还通过多样的消息触达方式，如电话、微信、短信、邮件、钉钉、飞书等和灵活的排班及升级机制，满足团队成员在不同工作和休息场景下的通知覆盖需要，保障关键信息7*24小时无错漏的到达相关人员，提升人员分工管理的效率。

2

运维知识的沉淀和故障处理经验的积累

传统的运维管理模式对个人能力的依赖程度非常高，一旦系统出现问题，需要更多经验丰富的技术人员通过更全面的信息分析来找到故障的根因。如果这些知识和经验不固化在一个平台之上，那么系统架构的迭代升级和运维团队人员的变动都将对故障处理的效率带来巨大的负面影响。

另外，历史总是惊人的相似，历史是成长和发展的基石。事件管理平台就像是一个大的运维数据中台，将企业过往IT系统的血缘关系，新陈代谢，病史病历都一一记录在案。从典型故障的分析、排查、修复过程还原，到系统瓶颈下一步优化建议的发现，事件管理平台一方面帮助团队将流动的信息和个人的经验汇聚到一起，另一方面也为企业从传统 ITOM 转向AIOps 提供基础的数据准备，帮助团队摆脱故障处理对个人能力的重度依赖。就像辅助驾驶的出现一样，将特定驾驶模式固化在汽车的基本能力之中，降低了驾驶员的操控难度和经验积累。

3

运维成本的降低，人员数量的减少和工作舒适度的提升

随着 IT 环境复杂度和客户体验敏感度的提升，企业不得不引入大量的工具和人员到各个细分领域的日常管理之中，伴随而来的是人员和时间成本的不断增加。我们可以看这样一个例子，一家提供近亿日活 APP 的互联网企业，通过 Zabbix、Prometheus、日志等工具对基础资源和业务进行监控，10人的运维团队需要处理日均超过9000条告警，平均的故障处理时长接近10分钟。如果不使用事件管理平台来对9000条告警进行降噪处理，不通过协作手段提升10人团队的工作效率，我们很难想象会是一个怎样的日常工作场景。企业可能需要至少投入30人，平均每个故障花费超过30分钟的时间，来应对近万条的日常告警信息。事件管理平台通过超98%的降噪比，剔除掉大量重复、相关、冗余的信息，将日常的告警量从9000条压缩到200条。再通过灵活的内容路由和分派方案，帮助10人团队轻松驾驭到达他们手头的200条关键告警信息。事件管理平台带来的不仅是故障处理效率上的提升，同时在减少人员配置需求的基础上也提高了大家的工作舒适度。

图片

《国富论》还告诉我们，要提高劳动的生产力，可以从两个方面来做：一是提高劳动者的能力；二是改进劳动者劳动时使用的机械。事件管理平台之于 IT 运维管理就是这样一个新的工具。它通过对 IT 运维管理中海量事件信息，进行集中、灵活、智能化的处理和加工，更加高效的链接“监”、“管”、“控”三种能力，帮助企业逐步向“无人运维”这个 IT 运维管理发展的终极目标迈进。