从0搭建大规模aiops(项目从0到1的搭建)

来源网友投稿 1101 2023-01-11

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈从0搭建大规模aiops,以及项目从0到1的搭建对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享从0搭建大规模aiops的知识,其中也会对项目从0到1的搭建进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

智能运维是什么?

得益于IT外包服务的发达从0搭建大规模aiops,现在的运维已经不包括搬机器上架、接网线、安装操作系统等基础工作,运维人员一般会从一台已安装好指定版本的操作系统、分配好IP地址和账号的服务器入手,工作范围大致包括从0搭建大规模aiops:服务器管理(操作系统层面,比如重启、下线)、软件包管理、代码上下线、日志管理和分析、监控(区分系统、业务)和告警、流量管理(分发、转移、降级、限流等),以及一些日常的优化、故障排查等。
随着业务的发展、服务器规模的扩大,才及云化(公有云和混合云)、虚拟化的逐步落实,运维工作就扩展到了容量管理、弹性(自动化)扩缩容、安全管理,以及(引入各种容器、开源框架带来的复杂度提高而导致的)故障分析和定位等范围。
听上去每一类工作都不简单。不过,好在这些领域都有成熟的解决方案、开源软件和系统,运维工作的重点就是如何应用好这些工具来解决问题。
传统的运维工作经过不断发展(服务器规模的不断扩大),大致经历了人工、工具和自动化、平台化和智能运维(AIOps)几个阶段。这里的AIOps不是指Artificial Intelligence for IT Operations,而是指Algorithmic IT Operations(基于Gartner的定义标准)。
基于算法的IT运维,能利用数据和算法提高运维的自动化程度和效率,比如将其用于告警收敛和合并、Root分析、关联分析、容量评估、自动扩缩容等运维工作中。
在Monitoring(监控)、Service Desk(服务台)、Automation(自动化)之上,利用大数据和机器学习持续优化,用机器智能扩展人类的能力极限,这就是智能运维的实质含义。
智能运维具体的落地方式,各团队也都在摸索中,较早见效的是在异常检测、故障分析和定位(有赖于业务系统标准化的推进)等方面的应用。智能运维平台逻辑架构如图所示。
智能运维平台逻辑架构图
智能运维决不是一个跳跃发展的过程,而是一个长期演进的系统,其根基还是运维自动化、监控、数据收集、分析和处理等具体的工程。人们很容易忽略智能运维在工程上的投入,认为只要有算法就可以了,其实工程能力和算法能力在这里同样重要。
智能运维需要解决的问题有:海量数据存储、分析、处理,多维度,多数据源,信息过载,复杂业务模型下的故障定位。这些难题是否会随着智能运维的深入应用而得到一定程度的解决呢?我们会在下一篇文章中逐步展开这些问题,并提供一些解决方案。
本文选自《智能运维:从0搭建大规模分布式AIOps系统》,作者彭冬、朱伟、刘俊等,电子工业出版社2018年7月出版。
本书结合大企业的智能运维实践,全面完整地介绍智能运维的技术体系,让读者更加了解运维技术的现状和发展。同时,帮助运维工程师在一定程度上了解机器学习的常见算法模型,以及如何将它们应用到运维工作中。

AIOps具体是如何落地的?

AIOps如何落地,还是以具体案例来说比较容易理解。就拿擎创为北京农村商业银行做的项目来说。

项目背景:

近年来数字化转型的步伐愈发变快,随着北京农村商业银行业务规模的扩增以及业务形式的电子化加速,贯穿业务、市场、系统、应用、数据库、中间件、网络、安全等多方面的数据量迅速叠加堆积。然而,这些对于市场而言极具价值的巨量化数据并不集中,它们分散在银行的各中心服务器或设备之中,这使得银行的数据运维工作量越来越大,尤其是在日志的统一管理、监控、信息挖掘等方面极为明显。因此,北京农村商业银行对于信息技术提升和数据管理加强的需求日益加深。

根据监管部门对银行数据治理的相关指引以及中国银监会《商业银行信息科技风险管理指引》(银监发〔2009〕19号)中针对日志文件完整性、存留周期的相关要求,北京农村商业银行最终选择擎创科技助力其完善智能运维建设,保障其业务的平稳高效运行。


解决方案:

根据北京农村商业银行的需求以及现状,擎创科技通过以下手段为其建设运维大数据平台。

通过现分布式高可用,支持横向扩展,随着业务需要随时扩容平台节点;

通过高效数据采集手段,实现对现有IT环境的实时数据采集,打破各个孤立运维工具中的数据孤岛;

对所有运维数据进行集中高效的存储、查询及可视化展示;

支持结构化、非结构化的数据采集支撑;

内置AI智能日志分析引擎,实现日志异常检测、日志异常定位并辅助故障定位。

平台架构图如下:


创新点:

北京农村商业银行在运维大数据平台项目的建设中,采用流批一体的处理技术、流式窗口聚合方式,实现了实时采集、秒级处理、秒级查询,为运维人员提供高效的数据查询手段,为应用人员实现交易数据与日志的深度结合;

采用智能算法判断、故障根因定位,为运维人员提供便捷数据分析工具。充分挖掘了北京农村商业银行的运维数据价值、提升了运维管理水平、提高了运维效率。


建设成效:

建设日志治理平台和大数据平台,实现日志数据统一集中管理、KPI动态异常检测、日志智能聚类等功能。

日志治理+大数据平台(算法),当前日增日志6TB,设计容量10TB,热数据保存30天、冷数据保存3个月,大数据平台日志存档一年、指标类数据两年;

最高峰每秒处理日志500万条日志,其中最高按单笔业务交易日志行数达3000+行,经采集、数据提取、数据合并、数据丰富等数据处理后延时小于1s。


总结:

随着运维大数据平台的建设完成,北京农村商业银行实现了对各类运维日志数据的统一管理,能够对日志进行集中查询、聚类分析、快速分析、精细化分析等操作,结合监控告警的智能化处理,可以做到事前智能预警、事后快速定位故障并分析,进一步提升了银行数据中心的运维管理水平。

AIOps是什么?

AIOps,顾名思义是将AI赋能于IT运维管理。国际权威咨询机构Gartner在2016年的报告里首次提出AIOps的概念。

传统的IT运维工作,大多是借助监控软件查看数据,并依赖运维人员的经验进行根因定位和排障。有了AI的加持后,可以借助AI算法提前发现数据中的异常,并通过数据串联锁定可能根因,大大缩短故障处理时间、提高运维效率。

经过多年来的发展,越来越多的大中型企业投入智能运维AIOps的部署,以应对企业数字化转型带来的数据量暴增、系统架构复杂带来的运维挑战。

Gartner在其2022年的AIOps报告中也指出:Yes, There is no doubt: There is no future of IT operations that does not include AIOps. 毫无疑问,不包含AIOps的IT运维不会有未来。

相信在不久的将来,传统运维将渐渐被智能运维AIOps所替代。

通常,AIOps智能运维系统包含这几个功能模块:

AIOps市场未来将会如何发展?

从未来发展趋势来看从0搭建大规模aiops,ITOA、AIOps会是未来增长最快从0搭建大规模aiops的两个方向。随着以数据为核心的运维分析出现,运维市场逐渐由ITOM演变成ITOA(IT Operations Analytics),后来又提出了智能化运维(AIOps)。尽管目前肯定还是ITOM占市场的主体,但随着企业数字化转型的快速发展,IT系统数量快速增长,还有云原生架构的应用导致系统复杂度越来越高,传统运维方式已经无法满足企业的需求,因此,借助AI技术能力实现运维智能化,提高运维效率和运维质量,成为IT运维的必然趋势。现在,IT运维的发展正处于螺旋式的上升期,根据Gartner预测未来3-5年内,可观测的智能运维能够达到成熟期。
不过国内AIOps的落地实践也面临着挑战从0搭建大规模aiops
1. 不切实际的期望。AIOps的技术还不是完全成熟,很多用户很难将智能自动化的运维与实际可实现的案例分开,认为AIOps已经能够实现智能自动化,而实际上现在距离真正的智能运维还有很长的一段路要走。
2. 有价值的案例需要实践时间。AIOps平台需要通过不断的学习观察,在一定的时间、发生频率内,才能将正常的数据范围和模式跟解决方案结合起来,以建立合适的观测模型,为后续的业务运营提供保障。
3. 市场的转变。AIOps的市场正处于不断的变化发展中,监控供应商正在向上层业务移动,AIOps平台的供应商则正在进入监控领域,而ITSM供应商却只是将AIOps的功能视为扩展其范围的一种手段,随着技术的进步以及市场认知度的完善,会逐渐改变市场对于“技术水平”的定义。
4. 数据的质量。成功的AIOps解决方案需要高质量的数据作为支撑,但当下离散的IT系统和数据信息孤岛让数据分析结果产生负面的影响,使得治理效果并不十分令用户满意。
5. 基于复杂项目交付的定制工作。国内企业需要大规模、端到端、基于企业内部的部署,需要大量定制和整合的工作,对于供应商而言是极大的挑战。
6. 中国企业的IT堆栈。随着国家政策的推进,企业面临本土化转型的挑战,很多三方工具(由国外引入)并不是全都能很好的支持本土AIOps平台。
擎创科技,作为国内首批智能运维领域的解决方案提供商,将持续锚定赛道,用心服务用户,不断根据落地反馈来优化升级解决方案,助力客户完成从传统运维到智能运维的转变,也希望真正的智慧运营能够早日到来。

为什么很多大型企业都在采用AIOps?

这是因为目前,IT运维管理面临着两难境地的巨大挑战,一方面要降低成本,另一方面其复杂度又不断攀升。主要体现在数据量巨大、数据类型繁多和数据生成速度快三个维度:

IT基础架构和应用程序产生的数据量快速增长(年增长2-3倍)

机器和人工生成的数据类型越来越多(例如指标、日志、网络数据和知识管理文档)

由于采用了云架构和其他临时性的架构,数据生成速度不断提高,IT架构内变化速率也在提高

鉴于现代企业所需的洞察力,对这三个维度进行权衡的代价将相当巨大。因此,越来越多的客户对AIOps越来越感兴趣,并想通过大数据和机器学习技术来分析服务台的有效性,以此参与到故障和问题解决流程中去。IT组织还开始在DevOps环境中探索AIOps,将其作为持续集成/持续交付(CI/CD)周期的一部分,便于在部署之前预测潜在的问题,并检测潜在的安全问题。

AIOps分析的应用超越了其最初的使用范围,而成为IT运维中事件关联和分析的最佳解决方案。

如何通过AIOps手段增加运维效能和降低运维成本,对于企业来说都是很大的挑战。而致力于智能运维AIOps领域的擎创科技,已经为国内多家银行和证券用户成功部署夏洛克AIOps平台,助力企业运维降本增效:

强大自研数据采集器:支持Linux、Windows、AIX等多种系统,可采集除日志外的性能数据、网络数据、CMDB数据等各类数据;

创新的数据流处理方式:单数据流峰值每秒采集350000 条,可处理日增数据30TB;

人工智能算法:与复旦大学运维实验室共研10+种人工智能算法,异常检测和根因定位更容易。

目前,AIOps主要用于IT运维,且在企业中日益占据主导地位,而一些成熟的组织已正在利用该技术为企业领导者提供决策支撑。企业基础设施与运维负责人应该尽早启动AIOps平台部署工作,优化当前的性能分析,并在未来两年至五年内扩展至IT服务管理和自动化领域。

AIOps是什么?它与AI有什么关系?

现如今,AI 这个词已经被玩坏了。很多公司都声称自己在做 AI,但其实并没有。不过有另外一种新兴的 AI,各种类型的 IT 企业倒是可以尝试,而且完全不需要人工参与。

AIOps,也就是基于 算法 的 IT 运维(Algorithmic IT Operations),是由 Gartner 定义的新类别,源自业界之前所说的 ITOA(IT Operations and Analytics)。我们已经到达了这样的一个时代,数据科学和算法正在被用于自动化传统的 IT 运维任务和流程。算法被集成到工具里,帮助企业进一步简化运维工作,把人类从耗时又容易出错的流程中解放出来。人们不再需要在遗留的管理系统中定义和管理无穷无尽的规则和过滤器。

在过去的几年间,一些新技术不断涌现,利用数据科学和 机器学习 来推进日益复杂的企业数字化进程,“AIOps”(Algorithmic IT Operations)因此应运而生。Gartner 的报告宣称,到 2020 年,将近 50% 的企业将会在他们的业务和 IT 运维方面采用 AIOps,远远高于今天的 10%。

为了更好地理解 AIOps 和 AI 的区别,我们需要从头说起。

AI 简史

AI 一词用于描述机器(或软件)模拟人类认知的过程。也就说,机器学习像人类一样思考。40 年代,Alan Turing 掀起了 AI 热潮,但受限于计算机的计算能力,也只发展到今天的这个阶段。

问题是,我们为什么要让机器模仿人类?而为什么有些 AI 应用程序会比其他的更成功?发展 AI 的目的在于解决人类的问题,所以我们会看到像自动驾驶汽车、行为分析这类复杂的解决方案。

话说回来,IT 运维环境有一些不一样的地方。我们不会直接管理人类,我们与应用程序和基础设施打交道。而且它们可能更加复杂和不可预测,因为它们不是人类。

人类思维与机器思维

AIOps 的不同之处在这里体现出来。AIOps 的解决方案专注于解决问题,而且是通过使用基于算法的技术来高度模仿人类(而且以更快的速度和更大的规模)。算法的效率提升了 AIOps 的价值,而相对于人类的智慧——虽然是无限的,但不如机器来得高效。

当然,人类也能进行高效的 IT 运维。AIOps 的目的是为了让我们的生活变得更美好,但是当人类与 AIOps 参合在一起,它们之间的界限就会变得模糊。高级的 AIOps 会使用 神经网络 技术,它会向运维人员学习,然后尝试消除无聊的重复性劳动。

未来的公司

为什么公司需要 AIOps?现代的 IT 环境已经无比的复杂,而且千变万化,需要我们花费大量的时间和资源去监控、去诊断问题、去解决问题。很多公司处于被动的地位。但是如果他们使用了 AIOps,他们就可以利用先进的算法,花更多时间在其他更有意义的工作上,而不是重复地解决相同的问题,或者花时间管理规则和过滤器。

我们所说的规则,可以把它们简单地描述为“如果是这样那么就这么做”,它们能够应付简单的场景,但是很难扩展。相反,算法和机器学习提供了更加灵活的表达方式,不仅强大,而且健壮,能够应付不断变化的需求。这将带来更高的效率和更低的成本。对于厂商来说,他们面临的挑战在于将整个技术方案打包,避免把用户暴露于底层的复杂性当中。光是提供工具是不够的,企业需要招聘数据科学家而不仅仅是工程师。

前行之路

借助智能算法的技术优势,原先人工需要几个小时完成的任务现在通过自动化可以在几秒钟内完成,而且能够得到更好的结果。传统的 IT 运维需要管理大量的告警,极大地分散了企业的注意力,他们需要花很多时间解决无聊的问题,没有时间用于创新。使用 AIOps 可以解决这些问题,把运维人员从纷繁复杂的告警和噪音中解脱出来。各个行业的企业正在采用 AIOps,他们使用这项技术来改进客户的数字体验——银行、娱乐、交通、零售,甚至政府。

尽管 AIOps 还是一个新名词,但并不代表它只是未来的一种趋势而已。在这个数字的年代,任何使用传统技术来管理机器数据的组织要么忽略了信息的价值,要么已经让他们的运维团队不堪重负。随着数据的暴涨,CIO 们应该快速拥抱 AIOps。传统 AI 仍然会在某些领域发挥它的作用,而 AIOps 将为企业带来最直接最深远的价值。 关于从0搭建大规模aiops和项目从0到1的搭建的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 从0搭建大规模aiops的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于项目从0到1的搭建、从0搭建大规模aiops的信息别忘了在本站进行查找喔。
上一篇:智能运维平台研发规划(智能运维平台研发规划方案)
下一篇:做介电性能测试的意义(介电性能用什么测试)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~