it运维数据分析（大数据运维分析）-睿象云平台

it运维数据分析（大数据运维分析）

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本篇文章给大家谈谈it运维数据分析，以及大数据运维分析对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。今天给各位分享it运维数据分析的知识，其中也会对大数据运维分析进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、IT运维管理需要注意什么
2、IT运维都包含什么工作内容？
3、IT运维平台算法背后的两大“神助攻”
4、传统企业IT运维管理中主要存在哪些问题

IT运维管理需要注意什么

经过几十年的发展，it行业在当前互联网技术的推动下，进入了一个资源高度整合的时代，即系统化和智能化的时代。运行维护服务也将向组织化、标准化、专业化、智能化方向发展。

相比其它相关行业发展来说，IT运维服务的智能化管理更具得天独厚的优势，因为IT系统设计本身问题就是一个基于企业数字化、数据化和网络化的，而这几个方面要素恰恰是一切智能化的基础。

手工——机器——自动化——智能化，这种生产方式的演进，其目的就是逐步用机器取代人工，最大限度地把人从繁复的、非创造性的劳动中解放出来，以提高生产质量、降低生产成本。智能化对于IT运维服务来说，同样具有非凡的划时代意义。它不仅能大幅度地降低服务成本、提高服务质量的稳定性，还为商业竞争构筑越来越高的技术门槛。

在长期的运维管理实践中，人们开发出各种运维管理工具，如信息安全系统、负载均衡系统、上网行为系统、网络监控系统、运维审计系统、日志审计系统等等。越来越多诸如此类系统的出现，标志着运维管理进入类似制造业的机器生产时代。下一个阶段的发展趋势应该是将这些系统在业务流程和数据上进行整合，朝着自动化与智能化方向挺进。以便更大程度地取代人工，消除人工服务所带来的非标准和质量不稳定的隐患，并进一步地提高服务效率、降低服务成本。

智能化是建立在大数据基础上的，首先要解决的是运维数据的智能采集。根据客户单位的业务需求，确定运维服务的总体目标，明确需要收集哪些数据？是怎么收集这些数据的？收集这些数据的方法是什么？如何确定不同类型数据的采集频率？如何分类和存储数据？

其次是大数据挖掘。设计运维数据分析模型，从海量历史数据中准确找出IT系统存在的问题。以监控系统为例，大部分客户都购买了网络监控系统，证明实际工作中存在这样的刚性需求。但实际上，大多数客户并没有很好地使用这个系统，主要是因为这些系统在数据准确性上并不理想，对大数据的分析和提取也比较薄弱。由于营销的需要，监控系统开发商把主要精力都放在新功能的开发和数据的展示上，对数据的准确性及分析挖掘缺乏深入研究，因而使得监控系统的实用性大打折扣。

然后是如何集成各种操作工具和它们生成的数据的问题。如何将各种运行维护管理工具集成为一个智能化的运行维护管理平台，充分发挥其整体价值。对于需要人工干预的事件，还需要与服务流程管理系统进行接口，以实现人机服务的集成，实现服务流程的智能化。与运维的组织化、标准化、专业化一样，智能化运维也是运维服务行业发展的大趋势。谁能顺应这一趋势，把握这个发展机遇，谁就赢得了未来！

本文摘要节选自来源于

https://www.yulubot.com/industry-research/57.html

it运维数据分析（大数据运维分析）

IT运维都包含什么工作内容？

所谓 IT运维管理,是指单位 IT 部门采用相关it运维数据分析的方法、手段、技术、制度、流程和文档等,对IT 如硬运行环境(软件环境、网络环境等)、IT 业务系统和 IT 运维人员进行it运维数据分析的综合管理。
IT 运维管理主要包括八个方面的管理内容:
1 设备管理。
对网络设备、服务器设备、操作系统运行状况进行监控和管理。
2 应用服务。
对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web 等的监控与管理。
3 数据存储。
对系统和业务数据进行统一存储、备份和恢复。
4 业务。
包含对企业自身核.心业务系统运行情况的监控与管理,对于业务的管理, 主要关注该业务系统的 CSF(关键成功因素 Critical Success Factors)和KPI(关键绩效指标Key Performance Indicators)。
5 目录内容。
该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理。
6 资源资产。
管理企业中各 IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互。
7 信息安全。
信息安全管理主要依据的国际标准是 ISO17799,该标准涵盖it运维数据分析了信息安全管理的十大控制方面,36个控制目标和 127种控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等。
8 日常工作。
该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。

IT运维平台算法背后的两大“神助攻”

智能运维(AIops)是目前 IT 运维领域最火热的词汇，全称是 Algorithmic IT operations platforms，正规翻译是『基于算法的 IT 运维平台』，直观可见算法是智能运维的核心要素之一。
本文主要谈算法对运维的作用，涉及异常检测和归因分析两方面，围绕运维系统Kale 中 skyline、Oculus 模块、Opprentice 系统、Granger causality（格兰杰因果关系）、FastDTW 算法等细节展开。

一、异常检测

异常检测，是运维工程师们最先可能接触的地方了。毕竟监控告警是所有运维工作的基础。设定告警阈值是一项耗时耗力的工作，需要运维人员在充分了解业务的前提下才能进行，还得考虑业务是不是平稳发展状态，否则一两周改动一次，运维工程师绝对是要发疯的。

如果能将这部分工作交给算法来解决，无疑是推翻一座大山。这件事情，机器学习当然可以做到。但是不用机器学习，基于数学统计的算法，同样可以，而且效果也不差。

异常检测之Skyline异常检测模块

2013年，Etsy 开源了一个内部的运维系统，叫 Kale。其中的 skyline 部分，就是做异常检测的模块，它提供了 9 种异常检测算法：

first_hour_average、

simple_stddev_from_moving_average、

stddev_from_moving_average、

mean_subtraction_cumulation、

least_squares

histogram_bins、

grubbs、

median_absolute_deviation、

Kolmogorov-Smirnov_test

简要的概括来说，这9种算法分为两类：

从正态分布入手：假设数据服从高斯分布，可以通过标准差来确定绝大多数数据点的区间；或者根据分布的直方图，落在过少直方里的数据就是异常；或者根据箱体图分析来避免造成长尾影响。

从样本校验入手：采用 Kolmogorov-Smirnov、Shapiro-Wilk、Lilliefor 等非参数校验方法。

这些都是统计学上的算法，而不是机器学习的事情。当然，Etsy 这个 Skyline 项目并不是异常检测的全部。

首先，这里只考虑了一个指标自己的状态，从纵向的时序角度做异常检测。而没有考虑业务的复杂性导致的横向异常。其次，提供了这么多种算法，到底一个指标在哪种算法下判断的更准？这又是一个很难判断的事情。

问题一：实现上的抉择。同样的样本校验算法，可以用来对比一个指标的当前和历史情况，也可以用来对比多个指标里哪个跟别的指标不一样。

问题二： Skyline 其实自己采用了一种特别朴实和简单的办法来做补充——9 个算法每人一票，投票达到阈值就算数。至于这个阈值，一般算 6 或者 7 这样，即占到大多数即可。

异常检测之Opprentice系统

作为对比，面对相同的问题，百度 SRE 的智能运维是怎么处理的。在去年的 APMcon 上，百度工程师描述 Opprentice 系统的主要思想时，用了这么一张图：

Opprentice 系统的主体流程为：

KPI 数据经过各式 detector 计算得到每个点的诸多 feature；

通过专门的交互工具，由运维人员标记 KPI 数据的异常时间段；

采用随机森林算法做异常分类。

其中 detector 有14种异常检测算法，如下图：

我们可以看到其中很多算法在 Etsy 的 Skyline 里同样存在。不过，为避免给这么多算法调配参数，直接采用的办法是：每个参数的取值范围均等分一下——反正随机森林不要求什么特征工程。如，用 holt-winters 做为一类 detector。holt-winters 有α，β，γ 三个参数，取值范围都是 [0, 1]。那么它就采样为 (0.2, 0.4, 0.6, 0.8)，也就是 4 ** 3 = 64 个可能。那么每个点就此得到 64 个特征值。

异常检测之

Opprentice 系统与 Skyline 很相似

Opprentice 系统整个流程跟 skyline 的思想相似之处在于先通过不同的统计学上的算法来尝试发现异常，然后通过一个多数同意的方式/算法来确定最终的判定结果。

只不过这里百度采用了一个随机森林的算法，来更靠谱一点的投票。而 Etsy 呢？在 skyline 开源几个月后，他们内部又实现了新版本，叫 Thyme。利用了小波分解、傅里叶变换、Mann-whitney 检测等等技术。

另外，社区在 Skyline 上同样做了后续更新，Earthgecko 利用 Tsfresh 模块来提取时序数据的特征值，以此做多时序之间的异常检测。我们可以看到，后续发展的两种 Skyline，依然都没有使用机器学习，而是进一步深度挖掘和调整时序相关的统计学算法。

开源社区除了 Etsy，还有诸多巨头也开源过各式其他的时序异常检测算法库，大多是在 2015 年开始的。列举如下：

Yahoo! 在去年开源的 egads 库。(Java)

Twitter 在去年开源的 anomalydetection 库。(R)

Netflix 在 2015 年开源的 Surus 库。(Pig，基于PCA)

其中 Twitter 这个库还被 port 到 Python 社区，有兴趣的读者也可以试试。

二、归因分析

归因分析是运维工作的下一大块内容，就是收到报警以后的排障。对于简单故障，应对方案一般也很简单，采用 service restart engineering~ 但是在大规模 IT 环境下，通常一个故障会触发或导致大面积的告警发生。如果能从大面积的告警中，找到最紧迫最要紧的那个，肯定能大大的缩短故障恢复时间(MTTR)。

这个故障定位的需求，通常被归类为根因分析（RCA，Root Cause Analysis）。当然，RCA 可不止故障定位一个用途，性能优化的过程通常也是 RCA 的一种。

归因分析之 Oculus 模块

和异常检测一样，做 RCA 同样是可以统计学和机器学习方法并行的~我们还是从统计学的角度开始。依然是 Etsy 的 kale 系统，其中除了做异常检测的 skyline 以外，还有另外一部分，叫 Oculus。而且在 Etsy 重构 kale 2.0 的时候，Oculus 被认为是1.0 最成功的部分，完整保留下来了。

Oculus 的思路，用一句话描述，就是：如果一个监控指标的时间趋势图走势，跟另一个监控指标的趋势图长得比较像，那它们很可能是被同一个根因影响的。那么，如果整体 IT 环境内的时间同步是可靠的，且监控指标的颗粒度比较细的情况下，我们就可能近似的推断：跟一个告警比较像的最早的那个监控指标，应该就是需要重点关注的根因了。

Oculus 截图如下：

这部分使用的计算方式有两种：

欧式距离，就是不同时序数据，在相同时刻做对比。假如0分0秒，a和b相差1000，0分5秒，也相差1000，依次类推。

FastDTW，则加了一层偏移量，0分0秒的a和0分5秒的b相差1000，0分5秒的a和0分10秒的b也相差1000，依次类推。当然，算法在这个简单假设背后，是有很多降低计算复杂度的具体实现的，这里就不谈了。

唯一可惜的是 Etsy 当初实现 Oculus 是基于 ES 的 0.20 版本，后来该版本一直没有更新。现在停留在这么老版本的 ES 用户应该很少了。除了 Oculus，还有很多其他产品，采用不同的统计学原理，达到类似的效果。

归因分析之 Granger causality

Granger causality（格兰杰因果关系）是一种算法，简单来说它通过比较“已知上一时刻所有信息，这一时刻 X 的概率分布情况”和“已知上一时刻除 Y 以外的所有信息，这一时刻 X 的概率分布情况”，来判断 Y 对 X 是否存在因果关系。

可能有了解过一点机器学习信息的读者会很诧异了：不是说机器只能反应相关性，不能反应因果性的么？需要说明一下，这里的因果，是统计学意义上的因果，不是我们通常哲学意义上的因果。

统计学上的因果定义是：『在宇宙中所有其他事件的发生情况固定不变的条件下，如果一个事件 A 的发生与不发生对于另一个事件 B 的发生的概率有影响，并且这两个事件在时间上有先后顺序（A 前 B 后），那么我们便可以说 A 是 B 的原因。』

归因分析之皮尔逊系数

另一个常用的算法是皮尔逊系数。下图是某 ITOM 软件的实现：

我们可以看到，其主要元素和采用 FastDTW 算法的 Oculus 类似：correlation 表示相关性的评分、lead/lag 表示不同时序数据在时间轴上的偏移量。

皮尔逊系数在 R 语言里可以特别简单的做到。比如我们拿到同时间段的访问量和服务器 CPU 使用率：

然后运行如下命令：

acc_count<-scale(acc$acc_count,center=T,scale=T)

cpu<-scale(acc$cpuload5,center=T,scale=T)

cor.test(acc_count,cpu)

可以看到如下结果输出：

对应的可视化图形如下：

这就说明网站数据访问量和 CPU 存在弱相关，同时从散点图上看两者为非线性关系。因此访问量上升不一定会真正影响 CPU 消耗。

其实 R 语言不太适合嵌入到现有的运维系统中。那这时候使用 Elasticsearch 的工程师就有福了。ES 在大家常用的 metric aggregation、bucket aggregation、pipeline aggregation 之外，还提供了一种 matrix aggregation，目前唯一支持的 matrix_stats 就是采用了皮尔逊系数的计算，接口文档见：

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-matrix-stats-aggregation.html

唯一需要注意的就是，要求计算相关性的两个字段必须同时存在于一个 event 里。所以没法直接从现成的 ES 数据中请求不同的 date_histogram，然后计算，需要自己手动整理一遍，转储回 ES 再计算。

饶琛琳，目前就职日志易，有十年运维工作经验。在微博担任系统架构师期间，负责带领11人的SRE团队。著有《网站运维技术与实践》、《ELKstack权威指南》，合译有《Puppet 3 Cookbook》、《Learning Puppet 4》。在众多技术大会上分享过自动化运维与数据分析相关主题。

传统企业IT运维管理中主要存在哪些问题

当前，随着企业数字业务的快速发展和业务量的攀升，企业信息系统架构的升级变迁，以及企业多套业务系统的在线运营，各类监控组件和应用系统间的关系错综复杂，系统运维的难度也急剧增加，且面临着巨大挑战。

在传统运维方式下，数据规模大且离散，数据治理和全面分析能力薄弱且依赖于经验和规则，运维十分被动，解决问题效率非常低下，运维的实用性大打折扣，难以满足当前主动运营的要求。

具体来说有以下几点：

发现问题难：企业在经年累月中布局了诸多监控工具，但是监控手段阈值的设定单一，且一般都是静态阈值，而指标和告警的异常却是多样化的，这样就会造成大量的误报漏报现象。此外，目前绝大多数的监控工具，缺乏趋势预测能力，使得运维局面非常被动，导致发现问题十分困难。

根因定位难：发现问题时一般都是对问题进行定性分析，可能了解到某一告警对应的指标波动是值得关注的，但是并不能因此确定造成这种现象具体根因。而且目前的监控工具，大多缺乏综合根因定界及定位分析的手段，即便对监控进行了集中管理，也难以通过单纯的几种指标进行根因定位。

数据治理难：当数字化建设进行到一定程度的时候，被管理对象的数据量相应的也是水涨船高，数据数量大、类别多且非常分散，很难通过某一指标体系来衡量系统的健康度，也没有一个统一的视角去判断数据质量的好坏优劣。

运营分析难：现有的大多数基础监控工具，多数都是从自己的管理阈例如系统管理、网络管理出发看待问题，缺乏端到端的分析能力，没办法以业务视角从综合运营分析的角度，去看待多样化指标对系统的影响。

而智能运维是一种全新的数字化运维能力，也将是数字化转型的必备能力。智能运维相对于传统运维模式而言，能够在运维数据治理、业务数字化风险、运维人力成本和业务侧影响力四个方面有本质的效能提升。

智能运维相对于传统运维模式而言，能够在四个方面有本质的效能提升：

运维数据治理。通过高性能实时处理的数据平台广泛采集、处理和分析数字化业务运行过程中的多样化运维数据，包括告警、指标、日志、配置以及运维工单等类别，不仅提升了运维大数据的治理能力，优化了数据质量，而且为进一步激活运维数据的价值打下了良好基础；

业务数字化风险。使运维人员不仅提升了历史运维数据的分析能力并且能够对实时数据进行异常检测和问题预判，有效降低数字化业务的运行风险，提升可用性、稳定性；

运维人力成本。使真正意义上的跨域根因定位成为可能，降低对专业运维人员经验技能的依赖，迅速缩短故障排查时间并有效降低人力成本；

业务侧影响力。以业务视角利用多元化数据提高运营分析和决策能力，比如端到端的分析业务交易状态，提供给业务、客服部门及时反馈和决策支持依据，充分增强业务影响力；

智能运维发展正如火如荼，Gartner预见其为下一代运维，认为到2022年将有近50%的企业用户部署智能运维。虽然目前不少企业已经在积极投入建设，也还有一些企业处在迷茫阶段，对这种趋势不太清晰，借用著名作家威廉吉布森的话，“未来已来，只是分布不均。”

关于it运维数据分析和大数据运维分析的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。 it运维数据分析的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于大数据运维分析、it运维数据分析的信息别忘了在本站进行查找喔。

AIOps 一场颠覆传统运维的盛筵

1346 2023-02-14

it运维数据分析（大数据运维分析）

IT运维管理需要注意什么

IT运维都包含什么工作内容？

IT运维平台算法背后的两大“神助攻”

传统企业IT运维管理中主要存在哪些问题

AIOps 一场颠覆传统运维的盛筵

AIOps 平台的误解，挑战及建议（中），AIOps常见的误解

AIOps 平台的误解，挑战及建议， AIOps背景及所应具备技术能力分析（上）