智能运维介绍

来源网友投稿 804 2022-12-26

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
  1. 智能运维,也成为 AIOps。将人工智能/ML或其他高级分析技术应用于业务和运营数据,以建立关联并实时提供规范性和预测性答案的软件

  2. 智能运维(AIOps,Artificial Intelligence for IT Operations)是是一种全新的数字化运维能力,也将是数字化转型的必备能力。是指通过机器学习等人工智能算法,自动地从海量运维数据中学习并总结规则,


IT运维的发展

      IT运维是IT运营维护人员根据业务需求来规划信息、网络、服务,通过网络监控、事件预警、业务调度、排障升级等手段,使IT系统处于长期稳定可用的状态。

早期的IT运维工作大部分是由运维人员手工完成,这种运维模式不仅低效,也消耗了大量的人力资源。利用工具来实现大规模和批量化的自动化IT运维,能极大地减少了人力成本,降低了操作风险,提高了运维效率。

但是自动化运维的本质依然是人与自动化工具相结合的运维模式,受限于人类自身的生理极限以及认识的局限,无法持续地面向大规模、高复杂性的系统提供高质量的运维服务。

智能运维(AIOps,Artificial Intelligence for IT Operations)是指通过机器学习等人工智能算法,自动地从海量运维数据中学习并总结规则,并作出决策的运维方式。

智能运维的概念最早由Gartner提出,它是将人工智能科技融入运维系统中,以大数据和机器学习为基础,从多种数据源中采集海量数据(包括日志、业务数据、系统数据等)进行实时或离线分析,通过主动性、人性化和动态可视化,增强传统运维的能力。

智能运维能快速分析处理海量数据,并得出有效的运维决策,执行自动化脚本以实现对系统的整体运维,能有效运维大规模系统。而在转型发展中,传统技术系统的运维模式面临以下三大挑战:

一是安全运行的挑战。

业务对技术系统的安全稳定运行要求高,而业务功能一般涉及多个系统应用,所采用的事后处置为主的运维模式,存在异常定位困难、处理效率低等缺陷,这种被动异常响应模式已经不能满足异常快速定位和处理的需求。

二是人力紧缺的挑战。

目前的技术系统运维由于工作量大、工作内容重复且枯燥,运维岗位特别是值班岗位的吸引力逐渐降低。运维需求与人力资源紧缺的矛盾,已经成为技术系统发展中无法避免的矛盾。

三是远程运维的挑战。

从单数据中心向多数据中心发展过程中,传统的现场运维方式也因数据中心地点偏僻、现场巡检工作繁琐重复等困难而导致运维成本和压力增大,如何实现远程运维来解决数据中心发展的问题。

技术发展中产生的问题必须依靠技术来解决,只有在运维领域引入新技术、新思路、新体系,才能更好地提升运维水平,更好地保障系统安全稳定高效的运行。

当前主流运维技术已从自动化运维向智能运维发展,利用人工智能来辅助甚至部分替代人工决策,可以进一步提升运维质量和效率。

因此,很多公司开展了智能运维的探索,研究如何在运维中引入人工智能,以实现事前智能预警、事后快速定位、夜间无人值守、远程集中管理等一系列的智能运维目标,以应对新环境下的三大运维挑战,进一步解放与发展生产力。

表1给出了手工运维、自动化运维、智能运维在运维效率、系统可用性、可靠性、学习成本、建设成本、应用范围作了全面的比较。


智能运维是什么?

智能运维(AIOps)是使用AI算法,在海量运维数据中全自动学习并汇总规则,进而作出决策的运维方式。智能运维可以快速处理数据,分析出有效的运维决策,执行自动化脚本以实现对系统的整体运维,从而有效运维大规模系统。

这一概念最早由Gartner提出:智能运维就是将人工智能加入运维系统中,基于大数据和机器学习,从不同数据源中采集海量数据进行实时或离线分析,使之主动性、人性化和动态可视化,增强传统运维的能力。

智能运维的好处

在智能化转型进程中,传统运维模式面临以下三大挑战:

1.安全运行

如果业务对技术系统的安全稳定运行方面有着高要求,但是功能涉及多个系统应用,所采用的事后处置为主的运维模式,有着异常定位困难、处理效率低等缺陷,这种被动异常响应模式不能满足异常快速定位和处理的要求。

2.人力紧缺

由于工作内容枯燥、工作量巨大,运维岗位对人才的吸引力不高。运维需求不断上升,而人力资源依旧紧缺,这成为了技术系统发展中无法避免的矛盾。

3.远程运维

在单数据中心发展为多数据中心的过程里,由于地点偏僻、巡检工作繁琐重复等困难,会导致传统运维方式成本和压力较大。

为了解决以上问题,必须在运维领域引入新技术、新思路和新体系,才能有效提升运维水平,从而确保系统安全稳定高效的运行。如今相关技术已从自动化运维向智能运维演进,借助人工智能,能够进一步提高运维质量和效率。

目前许多公司正在布局智能运维,探讨如何在运维中引入人工智能,以实现事前智能预警、事后快速定位等一系列的智能运维目标,方便应对新环境下的三大运维挑战,进一步解放与发展生产力。


智能运维的应用场景

智能运维的建设是从局部单点应用的探索,到单点能力完善,再到完全解决某个局部问题的一个过程,直到将各个智能运维场景相结合,构成一体化智能运维能力。

智能运维的应用场景可分为以下几个层面:

1.运维大数据平台建设

数据是智能运维具体实施的基础,因此必须率先建立运维大数据平台,采集、分析并存储运维数据,定义标准化的指标体系,选取运维数据,同时积累大量有用运维数据。以性能指标体系为例,可对操作系统、数据库、中间件等应用建立可供分析的性能指标体系,并在系统运行中获取性能数据,以此来刻画各应用的正常状态、异常状态的画像,为后续的检测、预测、分析等提供基础的运维知识图谱数据。

2.局部场景智能化

局部场景智能化意思是对运维场景中的硬件、 *** 、数据库等分别进行智能监控、异常预警、故障发现、故障自愈等场景。局部场景智能化的实现,能让故障发现、处理、排查的效率得到迅速提升,从而有效确保业务稳定运行。与此同时,这种能力的实现可以让智能化运维具备场景化、标准化、自动化等能力。

以 *** 异常为例,如果智能运维系统检测到 *** 上有异常指标,就会出发告警时间,在运维人员发现并确认故障后,系统就会使用机器学习算法精准定位故障,并且调用自动化运维工具来进行相应的修复操作,完成该场景下故障自愈。

互联网行业智能运维现状

1.阿里巴巴

阿里巴巴开发了智能故障管理平台,基于机器学习,能对业务异常迅速检测并及时发现故障。利用时间序列分析、机器学习,可以对未来的业务指标趋势完成预测。阿里云上已成功实行智能运维,故障发现准确率提高至80%,召回率升至90%。曾经由于误报浪费的操作时间省下了29小时。

2.百度

百度成功实现单机房故障自愈能力,这一技术基于智能流量调度。能够将止损过程分成三个阶段:感知、决策与执行。利用策略框架支持智能化异常检测、策略编排与流量调度,提升了单机房故障自愈能力。

3.京东金融

京东金融则在云计算数据中心布局了智能巡检机器人,提高机房及数据中心的巡检效率、智能化管理水平,不会有人工的错检和漏检,能够对巡检数据从事数据化管理和高效利用。

4.腾讯

腾讯在机器学习的基础上,成功在织云监控平 *** 成时间序列异常检测方案,在海量基于时间序列的日志信息中,极少的时间内实现了异常检测。


上一篇:流程引擎与事件操作(流程引擎 规则引擎)
下一篇:zabbix告警的原理(zabbix日志监控告警触发)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~