如何在智能告警平台CA触发测试告警
698
2023-02-02
本文目录一览:
这是因为目前,IT运维管理面临着两难境地的巨大挑战,一方面要降低成本,另一方面其复杂度又不断攀升。主要体现在数据量巨大、数据类型繁多和数据生成速度快三个维度aiops痛点:
IT基础架构和应用程序产生的数据量快速增长(年增长2-3倍)
机器和人工生成的数据类型越来越多(例如指标、日志、网络数据和知识管理文档)
由于采用了云架构和其aiops痛点他临时性的架构,数据生成速度不断提高,IT架构内变化速率也在提高
鉴于现代企业所需的洞察力,对这三个维度进行权衡的代价将相当巨大。因此,越来越多的客户对AIOps越来越感兴趣,并想通过大数据和机器学习技术来分析服务台的有效性,以此参与到故障和问题解决流程中去。IT组织还开始在DevOps环境中探索AIOps,将其作为持续集成/持续交付(CI/CD)周期的一部分,便于在部署之前预测潜在的问题,并检测潜在的安全问题。
AIOps分析的应用超越了其最初的使用范围,而成为IT运维中事件关联和分析的最佳解决方案。
如何通过AIOps手段增加运维效能和降低运维成本,对于企业来说都是很大的挑战。而致力于智能运维AIOps领域的擎创科技,已经为国内多家银行和证券用户成功部署夏洛克AIOps平台,助力企业运维降本增效:
强大自研数据采集器:支持Linux、Windows、AIX等多种系统,可采集除日志外的性能数据、网络数据、CMDB数据等各类数据aiops痛点;
创新的数据流处理方式:单数据流峰值每秒采集350000 条,可处理日增数据30TB;
人工智能算法:与复旦大学运维实验室共研10+种人工智能算法,异常检测和根因定位更容易。
目前,AIOps主要用于IT运维,且在企业中日益占据主导地位,而一些成熟的组织已正在利用该技术为企业领导者提供决策支撑。企业基础设施与运维负责人应该尽早启动AIOps平台部署工作,优化当前的性能分析,并在未来两年至五年内扩展至IT服务管理和自动化领域。
擎创科技为券商、银行、政府机构等都做过智能运维的成功落地案例。比如最近为某中型银行客户解决日常运维中存在的告警风暴问题。
A行主要运维痛点是告警风暴频发,系统日增告警量达5000多条。在这种情况下运维人员根本无法及时处理告警事件,系统问题更无法及时得到修复,势必会引发用户频繁投诉。A行迫切需要引入智能化的运维方案来解决横亘已久的问题,破除告警风暴难题,提高告警处理能力。
在实地了解到客户的现状和痛点后,我方咨询专家给出的方案是通过实施告警信息丰富、告警智能压缩、告警智能关联、精准推荐告警优先级等功能,帮助运维人员逐步实现少做事、做重要的事、更高效地做事等三级目标。这些核心功能,最终要依赖擎创的智能运维产品——告警辨析中心来实现。
这些功能的实现逻辑如下:
1、告警信息丰富:原始告警信息关联CMDB配置信息,做如下内容丰富;
2、告警智能压缩:利用智能算法将相同或者相似的告警进行合并压缩;
3、告警智能关联:利用智能算法将可能是同一种根因产生的告警关联在一起,方便用户迅速查找问题症结;
4、精准推荐告警优先级:智能算法推荐告警优先级,使告警级别标注更精准。
整个项目历时3个月,投产后压缩掉了82%的无效告警,并大大提高了运维人员的排障效率,客户投诉量也降低了50%。
此外,这个项目也了却了客户心中的难题。A银行使用的监控平台建设于2009年,虽然采用的是某知名国际软件厂商的产品,但是产品的架构、功能和性能已经远远无法满足当前业务需要。客户3年前就表示希望更换监控平台,但由于涉及部门过多,新监控平台建设工作迟迟无法推进。
此次智能运维项目中发现客户的指标数据采样频率和告警频率都是5分钟一次,已经无法反应系统的真实状态,且会遗漏大量有价值的数据和信息。经过项目组向客户多次汇报和反复沟通,终于推动客户下定决心升级监控平台,目前该项目已经进入UAT测试阶段。
“擎创科技将AIOps领域的行业场景做深做透,让客户可以产生真实的收入,这就是客户持续订阅的缘由。”
未来的运维势必是由运维走向运营,擎创科技将会继续提升运维数据的认知能力,打造智能运维产品中最实用的工具,构建实用工具中最智能的产品,帮助企业走上运维智能化道路。
DevOps是IT服务管理aiops痛点的一种模式。过去的数十年间,IT运维发展经历aiops痛点了数个阶段。从早期的手工运维到标准化运维、自动化运维,到如今的DevOps、AIOps。
简言之,DevOps试图打通开发和运维的部门墙,从而打通整个IT价值交付的全生命周期,从产品需求到上线运维的全过程实现效率的提升。
DevOps最显著的作用是提高了企业产品的交付质量、缩短开发周期、减少故障。而降本增效是每一个公司在数字化转型之后的很大的挑战,DevOps无疑直击痛点。
而作为一名DevOps 工程师,除了要具备软件工程师基本的编程能力以外,还需要特定的人际交往、工具使用等技能。换句话说,DevOps 工程师需要“软”、“硬”技能兼备,具体如下:
一、沟通与协作技巧
DevOps 是一种横跨软件开发、测试和部署的协作方法。它将原本具有不同目标的开发、测试和运维小团队聚集在一起,以实现更高效和高质量的代码发布,这就要求 DevOps 流程中的不同角色之间不能有任何交流障碍。因此,良好的沟通技巧(无论是口头还是书面)对于优秀的 DevOps 工程师来说是必不可少的。
协作能力也很重要。DevOps 是团队合作的开发模式,每个工程师都是团队成员,需要在整个软件迭代过程中支持其他同事的工作。这不仅仅要求我们成为一名优秀的队友,还要在适当的时候给新人一些建议,包括但不限于指导和建议团队成员交付代码的最佳方式、编码时使用哪些工具以及如何测试最新功能。这就要求我们自身也要对这些 DevOps 流程中的必要技能有所了解。
二、熟悉和理解 DevOps 工具链
除了协作和沟通这样的“软”技能之外,DevOps 工程师还必须知道如何使用各种复杂工具协同工作以支持软件交付目标,这是成为一个优秀的 DevOps 工程师所必备的“硬”技能。
DevOps 工程师需要知道如何使用和理解以下类型工具的作用:
版本控制工具
详细地说,集合了代码审查、合并功能的版本控制工具是能让多个开发人员之间完美协作的主要DevOps 工具。由于 DevOps 流程汇集了来自各个部门的专家,所以他们需要了解源代码控制系统,以及系统跟踪不同应用程序中的更改。此外,它还维护应用程序的多个版本。
目前 DevOps 流程中常用的版本控制系统都基于开源分布式版本控制系统 Git,例如 GitHub、Gitee、GitLab 以及各大厂商基于 Git 定制的内源协作工具。
持续集成工具
持续集成(CI)是 DevOps 的关键技能之一,它是构建 pipeline 的重要部分。DevOps 要求运营和开发团队使用统一的系统。因此,持续集成所做的就是将开发人员的代码与 master 合并在一起。有了这样的技巧,就可以有效地合并数据。因此,DevOps 工程师一定要知道如何使用一些常用的 CI 工具,例如 GitHub Action、Jenkins、Bamboo、TeamCity、Travis CI 等。
容器与编排工具
容器作为现代微服务与云原生架构的核心技术,提供了关于 DevOps 的三个基本功能,包括持续的实验、流动和反馈。容器技术的不可变基础设施实现了操作系统层虚拟化,不仅方便运维程序升级和部署,还升华成了向应用代码隐藏环境复杂性的手段,成为推广分布式服务的必要前提。
目前,Docker 仍然是应用最广泛的容器技术,而以容器编排引擎 Kubernetes 为核心的云原生技术栈则是各大互联网企业构建容器技术基础设施的事实标准。
自动化工具
自动化是软件开发过程中必不可少的要素之一。几乎所有的手工任务都可以使用各种脚本语言自动完成。例如,Ruby、Bash、Python、Node、Shell 等等。可以说,使用自动化开发工具已经成为了很多 DevOps 团队加快开发和部署过程的关键。想要成为 DevOps 工程师,掌握自动化工具很有必要。
监控和报警工具
DevOps 持续集成和持续部署的实现离不开持续监控的辅助作用。许多微服务都是由数百个组件组合而成,其中一个服务的故障可能导致整个系统崩溃。当然,手动找到核心故障问题是很复杂和耗时的。其中一个解决方案就是持续监控关键特征,如 RAM 使用、请求数量、异常数量和存储空间。因此,需要根据系统的关键特性设置一个警报系统。例如,当存储空间使用率达到 80% 时应该触发警报,以便 DevOps 运维开发人员可以在整个系统崩溃之前解决问题。
三、具有成熟编码标准的特定编程技能
然编程能力是每个开发者最基本的能力,但 DevOps 工程师在这方面仍然有一些更特殊的要求。
通常来说,DevOps 工程师需要在专精 1-2 门编程语言的基础上熟悉多种语言,例如 Java、JavaScript、Ruby、Python、PHP、Go 等,这是由微服务时代同一系统不同服务可以由不同语言、不同框架实现的特性而决定的。DevOps 工程师至少需要了解这些语言的特性并具备在操作系统环境中编写和调试它们的能力。
四、技术支持和维护技能
优秀的 DevOps 工程师不仅需要开发方面的技能,有时还需要为客户提供维护和技术支持。这意味着 DevOps 工程师应该乐于为内部和外部客户提供支持,并在出现问题时进行故障排除。
随着银行业务形态的增多、体量的变大,系统规模快速扩大,每天产生的数据信息呈几何式增长,其中包括大量的客户数据、交易数据和运行数据等。
这些信息数据量十分巨大,且具有非常大的潜在价值,也是大数据应用的基础来源。但却分散在各个中心服务器或者设备的不同位置,对运维数据的统一管理、监控、信息挖掘变得越来越困难,也使得运维工作量越来越大。
因此必须借助一定的手段和方式,增强数据治理和全面分析的能力,化被动运维为主动运营。而这些都是智能运维AIOps所具备的。智能运维是一种全新的数字化运维能力,也将是数字化转型的必备能力。智能运维的本质是提升运维数据的认知能力,它在提升运维数据治理能力、优化企业业务数字化风险、降低运维人力成本和提升运维在业务侧的影响力方面都有本质的提升。
下面给大家用最近公司做的一个案例进行解析:
背景
根据中国银监会《商业银行信息科技风险管理指引》(银监发〔2009〕19号)中针对日志文件完整性、存留周期的相关要求,结合当下监管部门对银行数据治理相关监督的指引,为提高银行竞争力,高质量快速完成数字化转型,将数据价值向资产化过渡,某行拟建设统一的运维大数据处理平台。优先选择从日志场景切入,精细化分析能力,打造场景化应用,实现全面可观测性,保障业务平稳高效运行。
方案简述
运维大数据平台的构建基于分布式高可用架构,满足容量随着业务需要动态扩展的需求;优化数据采集手段,实现对IT环境的实时数据采集以及集中高效的存储、查询、分析及可视化展示;基于流批一体的数据处理技术,实现全局数据秒速查询。内置AI智能分析引擎,除了能够解决异常检测、异常定位及辅助故障定位等运维痛点问题外,通过数据建模和洞察还可以对系统进行综合健康及风险分析。
另外,平台对数据处理操作非常友好,用低代码的方式实现对复杂数据的处理,如交易数据的实时响应时间计算,需要从日志中提取请求及响应的时间,再根据交易特征进行计算和时间窗口聚合,类似这种复杂操作,只需要一条数据处理流就可轻松完成。
本次案例是智能运维助力实现全面可观测性的一次成功落地实践,案例从两方面入手,一是事前做好各类型的数据链接、监控等,分层次,找关联;另一方面在观测到问题后能够快速评估问题影响,收敛问题并找到根因。
数字化转型中,以用户为中心是驱动金融行业的核心基础,而采用先进的运维手段(智能运维)则是企业不断前行的源源动力。
有“2020 年 DevOps 趋势调查”表明,99% 的调查对象表示 DevOps 对他们的组织产生了积极影响。DevOps 的优势包括更快且更轻松的发布、团队效率、更高的安全性、更高品质的产品,以及更高的团队和客户满意度。
速度更频繁地实践 DevOps 发布可交付成果的团队具有更高的品质和稳定性。事实上,DORA 2019 年 DevOps 状况报告发现,精英团队的部署频率和速度分别比表现不佳的团队高出 208 倍和 106 倍。持续交付使得团队可以使用自动化工具来构建、测试和交付软件。
改进协作DevOps 的基础是开发人员和运营团队之间的协作文化,他们会分担责任,协调工作。此举可以提高团队的效率,并省去工作交接和编写专为其运行环境而设计的代码的时间。
快速部署通过提高发布的频率和速度,DevOps 团队可以快速地改进产品。快速发布新功能和修复缺陷有助于获得竞争优势。
质量和可靠性持续集成和持续交付等实践可确保变更正常运行且安全无误,从而提高软件产品的质量。监控则有助于团队实时了解性能。
安全性通过将安全性集成到持续集成、持续交付和持续部署管道中,DevSecOps 成为开发过程中一个活跃的组成部分。通过将主动安全审计和安全测试集成到敏捷开发和 DevOps 工作流中,可将安全性植入产品内。
Devops 不是任何一个个人的工作,而是每个人的工作。从传统的基础架构转向使用基础架构即代码 (IaC) 和微服务可以加快开发和创新速度,但增加的运营工作量可能极具挑战性。最好为自动化、配置管理和持续交付实践奠定坚实的基础,以帮助减负。
过度依赖工具会使团队偏离 DevOps 的必要基础:团队和组织结构。一旦建立了结构,就应该建立流程和团队,然后确定工具。
关于aiops痛点和的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 aiops痛点的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于、aiops痛点的信息别忘了在本站进行查找喔。发表评论
暂时没有评论,来抢沙发吧~