aiops如何落地(aiops落地实践)

来源网友投稿 896 2023-02-05

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈aiops如何落地,以及aiops落地实践对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享aiops如何落地的知识,其中也会对aiops落地实践进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

AIOps具体是如何落地的?

AIOps如何落地aiops如何落地,还是以具体案例来说比较容易理解。就拿擎创为北京农村商业银行做的项目来说。

项目背景:

近年来数字化转型的步伐愈发变快aiops如何落地,随着北京农村商业银行业务规模的扩增以及业务形式的电子化加速,贯穿业务、市场、系统、应用、数据库、中间件、网络、安全等多方面的数据量迅速叠加堆积。然而,这些对于市场而言极具价值的巨量化数据并不集中,它们分散在银行的各中心服务器或设备之中,这使得银行的数据运维工作量越来越大,尤其是在日志的统一管理、监控、信息挖掘等方面极为明显。因此,北京农村商业银行对于信息技术提升和数据管理加强的需求日益加深。

根据监管部门对银行数据治理的相关指引以及中国银监会《商业银行信息科技风险管理指引》(银监发〔2009〕19号)中针对日志文件完整性、存留周期的相关要求,北京农村商业银行最终选择擎创科技助力其完善智能运维建设,保障其业务的平稳高效运行。


解决方案:

根据北京农村商业银行的需求以及现状,擎创科技通过以下手段为其建设运维大数据平台。

通过现分布式高可用,支持横向扩展,随着业务需要随时扩容平台节点;

通过高效数据采集手段,实现对现有IT环境的实时数据采集,打破各个孤立运维工具中的数据孤岛;

对所有运维数据进行集中高效的存储、查询及可视化展示;

支持结构化、非结构化的数据采集支撑;

内置AI智能日志分析引擎,实现日志异常检测、日志异常定位并辅助故障定位。

平台架构图如下:


创新点:

北京农村商业银行在运维大数据平台项目的建设中,采用流批一体的处理技术、流式窗口聚合方式,实现了实时采集、秒级处理、秒级查询,为运维人员提供高效的数据查询手段,为应用人员实现交易数据与日志的深度结合;

采用智能算法判断、故障根因定位,为运维人员提供便捷数据分析工具。充分挖掘了北京农村商业银行的运维数据价值、提升了运维管理水平、提高了运维效率。


建设成效:

建设日志治理平台和大数据平台,实现日志数据统一集中管理、KPI动态异常检测、日志智能聚类等功能。

日志治理+大数据平台(算法),当前日增日志6TB,设计容量10TB,热数据保存30天、冷数据保存3个月,大数据平台日志存档一年、指标类数据两年;

最高峰每秒处理日志500万条日志,其中最高按单笔业务交易日志行数达3000+行,经采集、数据提取、数据合并、数据丰富等数据处理后延时小于1s。


总结:

随着运维大数据平台的建设完成,北京农村商业银行实现了对各类运维日志数据的统一管理,能够对日志进行集中查询、聚类分析、快速分析、精细化分析等操作,结合监控告警的智能化处理,可以做到事前智能预警、事后快速定位故障并分析,进一步提升了银行数据中心的运维管理水平。

AIOps市场未来将会如何发展?

从未来发展趋势来看,ITOA、AIOps会是未来增长最快的两个方向。随着以数据为核心的运维分析出现,运维市场逐渐由ITOM演变成ITOA(IT Operations Analytics),后来又提出了智能化运维(AIOps)。尽管目前肯定还是ITOM占市场的主体,但随着企业数字化转型的快速发展,IT系统数量快速增长,还有云原生架构的应用导致系统复杂度越来越高,传统运维方式已经无法满足企业的需求,因此,借助AI技术能力实现运维智能化,提高运维效率和运维质量,成为IT运维的必然趋势。现在,IT运维的发展正处于螺旋式的上升期,根据Gartner预测未来3-5年内,可观测的智能运维能够达到成熟期。
不过国内AIOps的落地实践也面临着挑战:
1. 不切实际的期望。AIOps的技术还不是完全成熟,很多用户很难将智能自动化的运维与实际可实现的案例分开,认为AIOps已经能够实现智能自动化,而实际上现在距离真正的智能运维还有很长的一段路要走。
2. 有价值的案例需要实践时间。AIOps平台需要通过不断的学习观察,在一定的时间、发生频率内,才能将正常的数据范围和模式跟解决方案结合起来,以建立合适的观测模型,为后续的业务运营提供保障。
3. 市场的转变。AIOps的市场正处于不断的变化发展中,监控供应商正在向上层业务移动,AIOps平台的供应商则正在进入监控领域,而ITSM供应商却只是将AIOps的功能视为扩展其范围的一种手段,随着技术的进步以及市场认知度的完善,会逐渐改变市场对于“技术水平”的定义。
4. 数据的质量。成功的AIOps解决方案需要高质量的数据作为支撑,但当下离散的IT系统和数据信息孤岛让数据分析结果产生负面的影响,使得治理效果并不十分令用户满意。
5. 基于复杂项目交付的定制工作。国内企业需要大规模、端到端、基于企业内部的部署,需要大量定制和整合的工作,对于供应商而言是极大的挑战。
6. 中国企业的IT堆栈。随着国家政策的推进,企业面临本土化转型的挑战,很多三方工具(由国外引入)并不是全都能很好的支持本土AIOps平台。
擎创科技,作为国内首批智能运维领域的解决方案提供商,将持续锚定赛道,用心服务用户,不断根据落地反馈来优化升级解决方案,助力客户完成从传统运维到智能运维的转变,也希望真正的智慧运营能够早日到来。

AIOps时代到来了,我们要如何应对?

在当前数字化转型的浪潮下,企业 IT 运维方面的投资规模将逐步增加,IT 运维的关注方向也将逐步从自动化运维向智能化运维发展。伴随着企业规模扩大,业务模式更新,以及云计算、大数据、人工智能等新技术应用,AIOps智能运维能力已在科技、互联网、金融、电信等行业逐步落地应用,并呈现出多样化的发展趋势。

目前国内AIOps智能运维的发展现状是:

1. 多数企业近年来在运维方面的资金投入仍处于增长阶段。近 4 成企业运维方面年平均投资规模超5000 万元,投资规模在 5000 万元-1 亿元的企业占比 11.24%,1 亿元-5 亿元 的企业占比 13.45%。

2. 超半数企业在实现自动化运维、自动化部署的基础上进一步增强监控、运维智能化能力。 根据本次调查显示,61.21%的企业选择优先关注和投资 DevOps 自动化部署,52%的企 业选择优先关注和投资升级监控和 AIOps。

3. 智能运维已经在各行业逐步落地应用,特别是在科技、互联网、金融、电信几大领域应用效果十分显著。根据本次调查结果,科技和互联网行业受访者所在企业表示已建立了智能 运维平台并形成了相关评价体系分别占比 49.64%和 37.96%,其次是银行占比 28.99% 和电信企业占比 25.97%。 

4. AIOps 仍处于初期发展阶段,受访者对目前 AIOps 能力水平的评价与期望超过其所在企业实际应用的情况。从整体来看,30.27%的企业自评目前处于辅助智能化运维阶段,28.61%的企业自评处于进阶智能化运维阶段。

未来,AIOps 将是运维发展的必然趋势,也将是增长最快的方向。根据Gartner预测未来3-5年内,可观测的智能运维能够达到成熟期。


尤其对于中大型企业来说,企业的数字化转型成功与AIOps智能运维建设密不可分。基于这种情况,企业应该及早布局,才不会落于人后。

华为AIOps使能服务加速新基建运维智能化转型

人工智能经历了六十多年的浮浮沉沉,随着计算算力的进步,算法的创新和互联网发展下的海量数据积累,人工智能技术未来十年将焕发出新的活力,成为最具有冲击力的 科技 发展趋势之一。

在HUAWEI CONNECT 2020期间,华为基于对电信领域的深刻理解和多年经验沉淀,带来了《AIOps使能服务》的分享,旨在结合电信领域应用场景,使能网络达到自动、自愈、自优和自治的自动驾驶网络,提升整个网络的效率,降低OPEX。

AIOps成为电信网络运维智能化转型趋势

随着“5G 新基建”的加速实施,数字经济发展迎来新的动能。不仅推动投资消费的快速成长,还将驱动各行业的数字化转型升级。随之而来的是网络问题复杂化与业务质量高要求的挑战,运维能力的演进成为电信网络能否持续发挥效能的关键因素。

电信网络运维作业正面临问题发现被动(75% 问题由用户发现),故障根因定位难(90% 时间用于问题定位)的业务挑战。同时,各专业运维支撑系统功能也面临开发周期长,闭环流程自动化程度低的技术瓶颈。因此,运营商期望引入AI实现智能运维,做到主动维护和故障自愈。

在运维支撑系统的演进方向上,AIOps(运用AI及大数据技术解决运维问题)已经成为电信行业运维智能化转型的趋势和共识:构建AIOps平台能力,支撑不同运维场景应用。在未来五年内,电信行业市场的运维系统和平台将加速AI能力的升级,成为电信领域AI应用的核心场景,投资占比达到60%。

因此,AIOps已经成为电信网络运维智能化转型趋势。通过构建电信领域AIOps平台能力,快速实现智能运维升级。

华为AIOps助力网络提升可靠性及使能智能化运维

按照自动驾驶网络的等级定义,运维的智能化目标是要实现全域、全流程的预测性运维,自动监控、定位、自愈。

华为AIOps使能服务作为自动驾驶网络AI引擎NAIE的核心能力,基于AI平台,提供了一系列的电信领域AIOps原子能力以及组合编排能力,使能网络管控析单元、智能运维解决方案等运维系统,最终帮助运营商打破原有的烟囱式建设方式,将各专业运维系统的应用与AI能力解耦,采用分层的服务化架构对接共享数据中心,集中提供AIOps能力,适配运维场景应用百花齐放的需求。

如下是华为AIOps使能服务预组合编排好的服务,可开箱即用:

kpi异常检测服务, 快速智能识别海量kpi/kqi的异常情况,广泛应用在网络性能和质量监控场景aiops如何落地

故障识别与根因定位服务, 根据海量告警结合对应网络拓扑和传播知识,实时识别故障及根因网元及告警,可自动学习知识规律,保证持续优化,可广泛应用在各种网络场景aiops如何落地

日志异常检测服务, 实现日志的自动分类和统计规律发掘,实时监控出系统的异常行为和相关日志,可广泛应用在IT及电信网络场景;

硬盘异常预测, 可智能预测短期内(14天)的硬盘故障,以采取规避预防措施,以免对业务产生影响,广泛支持主流厂商的HDD及SSD型号。

细数华为AIOps使能服务四大核心竞争力

提供丰富的AIOps原子能力: AIOps的原子能力覆盖运维全流程,包括预测、检测,定位、执行。原子能力库支持流量预测,故障预测,KPI异常检测,日志异常检测,CHR异常检测,异常关联分析,事件聚合,根因定位等20+原子能力。

作为电信领域的AIOps使能服务,具备两个核心特点:一是基于华为电信领域的经验,原子能力将AI算法与电信领域行业知识融合,预制了默认的电信领域模型参数,同时支持现网运行态的调优,解决当前通用算法模型在具体行业落地效果差的难题。目前,已经在现网得到了规模验证。

另一个是AIOps原子能力采用标准化模型规范,统一数据输入,参数配置,结果输出等接口。为AIOps单点原子能力到灵活的组合串接提供了基础。

组合编排与DevOps能力: 通过组合编排功能,使用者可选择业务场景所需的AIOps原子能力,通过可视化方式完成流程串接,并进行业务泛化参数配置,包括数据接入方式,模型参数,内置电信领域泛化参数,事件通知方式、可视化Dashboard等配置。上述能力支持可视化编排或接口调用方式实现。此外,基于NAIE平台训练服务,AIOps的原子能力库支持使用者根据实际业务需求开展算法模型的创新与开发,不断扩展AIOps能力。NAIE的生态服务也提供专业的人员培训赋能。

支持电信领域数据对接: 支持KPI、告警、日志、xDR等电信领域主流运维数据。支持Kafka,数据库,文件系统,Restful等电信运维系统的主流数据对接方式。AIOps使能服务提供通用的数据源对接和标准化数据治理组件,通过配置项快速建立与运维系统的数据源连接,通过SDK将不同的数据类型和格式治理成标准化的AIOps原子能力输入集,用于模型训练和推理。

场景组合服务: 围绕运维全流程(发现、分析、处理)提供预制典型场景组合应用,快速接入运维流程。

综上所述,华为AIOps使能服务作为智能运维AI能力引擎,融合AI的技术优势与华为在电信领域的专业优势,为运维系统的智能化演进提供AIOps平台能力支持,助力到各专业运维系统的应用快速上线,让运维专家专注场景应用设计和业务目标达成。

华为AIOps助力运营商及企业网络打造最佳实践

在KPI异常检测方面,电信网络中,通过KPI来预测和检测网络问题是最普遍的场景。通过AI算法基于 历史 数据自动生成每个KPI的动态门限,避免传统静态门限带来的误报和漏报。

华为NAIE融合了电信领域的运维业务特点,提供单指标/多指标检测,异常原因关联分析,模型的自学习调优等关键能力。目前已经用在核心网,无线,数通等不同业务领域。国内某运营商采用了核心网KPI异常检测服务以后,实现提前5小时识别异常并主动预警,降低了业务损失。

在告警根因定位方面,发现异常或者故障之后的定位是运维流程中的难点,如何准确的将多维度的异常、告警等事件进行汇聚,减少故障噪声,准确定位到具体原因?这些工作目前主要依赖专家经验或者手工分析,而且受限于分析算力和知识信息,效果并不好。

华为NAIE AIOps通过AI算法与业务的融合,支持多类异常/告警等事件的智能故障定位,自动实现时间,拓扑和故障传播图等维度的事件汇聚和根因定位。目前已经应用到无线接入网等业务领域,经过实际验证,无效上站减少60%,根因识别准确率85%+,运维效率整体提升15%。

写在最后,电信领域AIOps落地的关键是需要将行业知识与AI技术融合。网络运维系统的AIOps能力构建的趋势是业务与能力解耦,做到AIOps能力的复用、拉通,支持,适配运维场景应用百花齐放和快速上线迭代的需求。

因此,AIOps使能服务作为智能运维AI能力引擎,融合AI的技术优势与华为在电信领域的专业优势,为运维系统的智能化演进提供AIOps平台能力支持,助力到各专业运维系统的应用快速上线,让运维专家专注场景应用设计和业务目标达成。目前,华为AIOps使能服务已经在无线,核心网,数通等网络域得到了广泛的应用。

国内AIOps有没有可落地的厂商?

擎创科技为券商、银行、政府机构等都做过智能运维的成功落地案例。比如最近为某中型银行客户解决日常运维中存在的告警风暴问题。

A行主要运维痛点是告警风暴频发,系统日增告警量达5000多条。在这种情况下运维人员根本无法及时处理告警事件,系统问题更无法及时得到修复,势必会引发用户频繁投诉。A行迫切需要引入智能化的运维方案来解决横亘已久的问题,破除告警风暴难题,提高告警处理能力。

在实地了解到客户的现状和痛点后,我方咨询专家给出的方案是通过实施告警信息丰富、告警智能压缩、告警智能关联、精准推荐告警优先级等功能,帮助运维人员逐步实现少做事、做重要的事、更高效地做事等三级目标。这些核心功能,最终要依赖擎创的智能运维产品——告警辨析中心来实现。

这些功能的实现逻辑如下:

1、告警信息丰富:原始告警信息关联CMDB配置信息,做如下内容丰富;

2、告警智能压缩:利用智能算法将相同或者相似的告警进行合并压缩;

3、告警智能关联:利用智能算法将可能是同一种根因产生的告警关联在一起,方便用户迅速查找问题症结;

4、精准推荐告警优先级:智能算法推荐告警优先级,使告警级别标注更精准。

整个项目历时3个月,投产后压缩掉了82%的无效告警,并大大提高了运维人员的排障效率,客户投诉量也降低了50%。

此外,这个项目也了却了客户心中的难题。A银行使用的监控平台建设于2009年,虽然采用的是某知名国际软件厂商的产品,但是产品的架构、功能和性能已经远远无法满足当前业务需要。客户3年前就表示希望更换监控平台,但由于涉及部门过多,新监控平台建设工作迟迟无法推进。

此次智能运维项目中发现客户的指标数据采样频率和告警频率都是5分钟一次,已经无法反应系统的真实状态,且会遗漏大量有价值的数据和信息。经过项目组向客户多次汇报和反复沟通,终于推动客户下定决心升级监控平台,目前该项目已经进入UAT测试阶段。

“擎创科技将AIOps领域的行业场景做深做透,让客户可以产生真实的收入,这就是客户持续订阅的缘由。”

未来的运维势必是由运维走向运营,擎创科技将会继续提升运维数据的认知能力,打造智能运维产品中最实用的工具,构建实用工具中最智能的产品,帮助企业走上运维智能化道路。

AIOps未来趋势是怎么样的?

AIOps 是运维发展的必然趋势。
一个很明显的规律,凡是让能让我们的生活变得更美好、更简单、更方便的技术,一定会具有强大的生命力,也必然会成为发展趋势,而 AI 正是这样的技术之一,AIOps 又是其中的一个专业领域。运维的发展变化是随着业务和技术发展变化的,根本上还是业务驱动和倒逼出来的。
当前这个阶段,现实情况,系统里面已经有大量软硬件模块、日志、监控告警指标也纷繁复杂,一方面是无法在问题萌芽状态就发现问题,无法提前做出预判,另一方面是发生了问题又无法快速确定根因,造成持续的资损。技术发展上,随着计算能力、数据量的积累、以及机器算法的进步,如何更加高效地开展 Ops 这个问题就摆在我们面前,AIOps 的模式应运而生。
所以,运维一步步发展到当前这个状态,根本上讲还是业务高速发展倒逼出来的,同时,从手动运维到运维自动化,再到 AIOps,这个过程根本上是在朝着如何更加高效运维的趋势在发展。 关于aiops如何落地和aiops落地实践的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 aiops如何落地的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于aiops落地实践、aiops如何落地的信息别忘了在本站进行查找喔。
上一篇:国铁智能运维平台怎么样(国铁运维公司是干什么的)
下一篇:情商成为开启人工智能大门的钥匙
相关文章

 发表评论

暂时没有评论,来抢沙发吧~