什么是AIOps智能运维?aiops 自动化运维

4747 2749 2023-01-16

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本文为大家讲述了什么是AIOps智能运维?aiops 自动化运维。

智能化运维近些年来开始被人们所熟知,我们专做IT研发与运维,正好逛到这个问题,就来回答一波,希望能够帮到大家。

一、智能运维(Alops)概念:

Gartner在2016年时便提出了AIOps的概念,AIOps即人工智能与运维的结合,并预测到2020年,AIOps 的采用率将会达到 50%。

简单来说,AIOps 就是基于已有的运维数据(日志、监控信息、应用信息等)并通过机器学习的方式来进一步解决自动化运维没办法解决的问题。

软件的一些“算法逻辑”不代表真正的AIOps,判断是否是真正AIOps的关键点在于:是否能自动从数据学习中总结规律,并利用规律对当前的环境给予决策建议。

image.png

Gartner定义AIOps概念图

总结一下就是:

1. 智能运维是以大数据平台和机器学习(算法平台)为核心。

2. 智能运维需要与监控、服务台、自动化系统联动,智能运维需要从各个监控系统中抽取数据、面向用户提供服务、并有执行智能运维产生决策模型的自动化系统。

二、AIOps的应用:

通过对运维数据的计算和分析支持智能监控、智能的故障分析和处理,智能IT知识图谱等。

三、AIOps的价值:

传统运维面对海量的运维数据,要快速止损和进行决策,人工专家的分析判断往往需要花费数小时或更大。

而AIOps在于通过机器学习来进行运维数据的挖掘,能帮助人甚至代替人进行更有效和快速的决策。

智能运维在企业的落地,能够提升业务系统的SLA,提升用户的体验,减小故障处理的时间等,带来业务的价值;并最终实现真正意义上的无人值守运维。

四、AIOps应用领域:

目前各大传统客户围绕AIOps的探讨和建设主要是如下内容:

发现问题:基于机器学习的异常检测;

例如,目前监控数据的异常阈值往往是静态的,无法有效规避变更时间、特殊节假日、业务正常的高低峰等,简单阈值、同环比算法的覆盖面有限,很容易漏警和误警。

基于历史数据或进行样本标记的KPI异常检测,能第一时间发现问题,检测模型能覆盖大多数曲线类型,能较好适应业务生命周期中的变化。

根因分析:基于机器学习的故障树挖掘,定位故障发生的根源以及其原因;例如,首先实现故障精准定位,在多指标情况下的业务异常(多指标检测的异常),出现异常的原因具体是哪个指标导致的;然后根据故障树挖掘和知识图谱,实现故障的精准根因分析与定位。

预测未来:基于机器学习模型的指标预测;例如,基于多种回归和统计方法,实现对不同级别粒度的业务数据的预测,包括业务指标预测、容量预测等,如双11业务对组件容量和资源容量的容量预测等。

IT辅助决策支持:深入运营场景,实现业务运营的IT辅助决策应用;如营收预测、舆情分析与预测等场景。

算法层面则可以跟学术界进行合作或在社区中获取,在早期训练数据集和反馈数据量比较少的情况下,采用无监督学习,具体实现是用模式识别(pattern recognition)的技术来判断指标是否关联。关联性是通过时间序列曲线相似度(similarity distance)来衡量的。

机器学习算法库提供计算时间序列曲线相似度的各种算法,比如:欧几里德距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)、明科斯基距离(Minkowski Distance)等。

在有足够数据集以后,算法演化成有:监督学习、随机森林(Random Forrest)、GBDT(Gradient Boosted Decision Tree) 、神经网络(Neutal Network)等。

需要思考这个问题的原因,是因为AIOps不是到了某一个点就突然质变的,而是在持续演进过程中实现的。随着算法的日益成熟,整个运维体系也在改进的过程中逐渐完善,AIOps的道路才会慢慢清晰。因此,在达到目标之前,我们需要仔细规划怎么做才能更快实现AIOps。

本文主题是“AIOps之前,运维层面能做什么?”。

本文内容分为三个部分:

①自动化运维的目标:端到端的自动化

②自动化运维的价值:呈现与度量

③运维数据管理:过程融合与结果治理。

为了避免AIOps只是一句空话,我们认为要实现AIOps不仅需要一些自动化场景的实现、度量,还需要运维数据的管理。

01. 自动化运维的目标:端到端的自动化

首先让我们再来回顾一下之前提到的智能化敏捷运维体系的四个阶段:规范化运维、自动化运维、敏捷化运维、智能化运维。

所谓规范化运维,指的就是运维的基本要素该有的都有,比如操作、流程、数据等,但还比较杂乱,没有形成一定的规范。此时,可以通过引入运维PaaS平台、建设自动化场景和自动化运维流程,进入自动化运维阶段。如果企业是处在规范化运维阶段,并在逐步建设自动化运维的话,这个建设周期大概是1-3年左右。

如何进入敏捷化运维阶段将作为今天的重点讲述内容。当企业能够实现运维端到端的自动化、流程敏捷化、数据融合和全局度量,就可以认为该企业已经进入敏捷化运维阶段。其实要建设敏捷化运维存在一定的难度,因为敏捷化运维不再是各个部门割裂,而是通过运维整体融合来发挥价值,所以一般来说在自动化运维的基础之上要实现敏捷化运维需要3-5年。

最后,处在敏捷化阶段的企业由于各个方面都已经条件充分,只需等待AI模型和算法等各方面时机成熟后,方能进入智能化运维阶段。

接下来,我们开始讲述敏捷化运维需要具备的要素。完整的自动化运维是端到端的自动化运维,那么端到端的自动化又包括哪些方面呢?包括运维基础数据管理、日常运维监控管理、运维流程规范管理和科技管理提升四个方面。

  • 运维基础数据管理:实现运维配置的自动化,比如设计态CMDB自动同步、资源CMDB自动读取、应用CMDB自动写入等。

  • 日常运维监控管理:实现运维操作和监控告警的自动化,比如应用系统技术方案、系统关键指标的采集、自动告警收敛等。

  • 运维流程规范管理:实现运维流程的自动化,比如问题自动化流转、缺陷管理线上闭环、发布管理自动化等。

  • 科技管理提升:实现应急灾备和运维效能分析自动化,比如应急协作与支持、应急预案线上管理、紧急发布统计分析等。

示例1:标准变更自动化

需要明确的是,并不是所有变更都能自动化,标准的变更可以自动化,但是常规变更能实现的是部分自动化。那些暂时不能自动化的变更模块,可以等待时机等各方面成熟之后,再实现自动化。

示例2:变更自动化中的运维数据融合

所谓运维数据融合,指的是在运维实践过程中,为了进行某个分析、判断或者决策,将相关数据汇总、关联、分析和结构化呈现的过程。例如变更过程中需要做变更影响分析,过往靠人分析;在数据融合情况下,就需要能够结合CMDB、监控告警、应用日志、变更记录等数据信息,进行一定程度的综合的、自动化的判断。这就大大提升了决策的效率和准确性。

示例3:低成本外部场景集成

端到端的自动化也需要考虑到跟外部系统的集成,传统做法是做工具的两两集成,但这不是最优解,最好的做法是能有一个运维平台做支撑。因为当运维发展到一定阶段时,尽管工具和流程都已经完善,但运维体系却无法更进一步,正是因为两两集成的方法是难以持续保留的。同样,这也是目前很多单位都建设运维平台的原因。

02. 自动化运维的价值该如何呈现和度量?

1. 从运维语言转换成业务语言

当我们能实现端到端自动化之后,运维价值主要从业务和技术双维度进行呈现。运维人员岗位偏技术,因此在思考自动化运维价值时主要从以下几个方面考虑:

  • 应用系统前台正常服务(业务服务提供):系统可用性如何?系统连续性管理如何?服务目录是否清晰具体?系统服务级别是否满足?系统容量与性能能否充足?

  • 应用系统后台技术服务(业务服务支持):配置与资产是否完整、准确?故障与事件是否发现、处置及时?问题是否妥善管理,预防复发?发布是否快速、成功?变更是否可控,及时?服务请求处理能否及时,准确,高效?

用这些语言去描述价值本身没有任何问题,但当运维人员需要跨部门向业务端去沟通和对接需求的时候,建议切换到业务端更在意的业务语言进行描述。

那么怎么从运维语言转换成业务语言呢?建议从成本、成果、风险三个方面考虑,主要有用户的体验感、风险角度等。具体见下图:

2. 融入到具体的IT服务中进行度量

不管是工具本身也好、自动化这个过程也好,本身是没办法直接去度量价值的。例如,企业通过自动化的方式,把告警管理自动化闭环了,那么这件事有意义吗?有的,可是能度量吗?很难。因此,我们只能具体到过程中去度量,比如发现和处理问题的及时性:15min发现问题、30min解决问题。

当然,这种度量指标本身是依赖自动化和工具的。简单来说,自动化运维的度量要到融入具体的IT服务中,也就意味着需要有服务质量模型、服务价值评价体系,具体见下图:

03. 运维数据管理:过程融合与结果治理

我们认为,AIOps体系并不代表完全取代原有的自动化或敏捷体系,而是在原有体系基础上附加AI能力。因此在实现AIOps之前,企业需要先建设自动化运维体系和运维数据体系。

自动化运维体系相当于人的手跟腿,AI相当于大脑。由于AI是赋予的能力,并不能够把流程和工具自动化,因此如果很多机械的工作和流程还是需要人工操作,那么实现AIOps的价值就大大减少。运维数据体系的重要性不必多说,AI算法的成熟依赖数据,大量且准确数据才能训练出精准的AI算法。尽管可能外部已经有很多成熟的AI模型和算法,但对于企业内部建设来讲,这些算法和模型无法开箱即用,仍需要通过企业自身的运维数据训练。

1. 运维数据治理分享

在此,我们借用彭华盛老师对运维数据治理体系框架的总结,基本已经把所有方面都涵盖到位了:

当运维数据体系都搭建完毕后的架构是什么样的呢?底层是源端,通过软硬件和工具将数据采集至数据平台,再通过API网关连接到数据应用层面,详见下图。

尽管运维数据治理体系的方法论基本都是通用的,但是很多企业对于建设的范围难以把控,可能会把所有的数据都纳入体系中来。可是纳入进来后该怎么使用这些数据?这些数据是否有用?对于生命周期的管理是否有效?如果这些问题都无法回答的话,可能就没必要纳入全部的数据。

因此我们建议数据治理要强调场景驱动,而不是数据的范围驱动,这跟建设CMDB很类似,这种方式能够避免在建设过程中出现大的问题。

运维数据体系构成和治理体系

AIOps的前景十分广阔,但是在做到AIOps之前,我们前期需要做一些铺垫,包括构建端到端自动化的运维体系、将运营效能够通过数字化的方式进行度量,最后再是运维数据体系的建设。运维数据体系的建设又包含运维数据的治理、运维平台工具的建设以及运维场景的建设。建设完成后的企业已经基本实现敏捷运维体系,踏入国内运维第一梯队,为AIOps的演进打下坚实的基础。

上文就是小编为大家整理的什么是AIOps智能运维?aiops 自动化运维。

国内(北京、上海、广州、深圳、成都、重庆、杭州、西安、武汉、苏州、郑州、南京、天津、长沙、东莞、宁波、佛山、合肥、青岛)睿象云智能运维平台软件分析、比较及推荐。

上一篇:智能运维是什么?智能运维管理系统平台
下一篇:好用的智能家居产品推荐
相关文章

 发表评论

暂时没有评论,来抢沙发吧~