5G时代的核心网运维有哪些挑战?

网友投稿 843 2022-12-23

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

5G时代的核心网运维有哪些挑战?

5G时代的核心网运维挑战

运维对象规模和复杂性急剧上升——不同于以往4G时代,5G时代由于网络应用深入到多样化的业务场景,网络规模急剧加大。通过切片方式来进行业务的管理,导致了业务也会更加动态和复杂,从而让网络管理难度大幅增加;网络的管理对象也急剧增多,除了传统意义上的运营商的公网,还有各行各业的行业用户专网,如何能够针对不同对象合理化,分域的运维,基于各个行业进行SLA保障,也是非常棘手的一个问题;同时,随着NFV,微服务架构等技术的不断引入,网络实现了分层解耦,按需部署,但同时也带来了运维复杂度的上升,故障的定位定界成为了5G时代运维极大的挑战;2/3/4/5G时代遗留下来多个独立的运维入口,也让原本就复杂的运维工作,变得更加的繁琐,传统烟囱式的运维团队和流程模式也因数据之间相互隔离,流程的非自动化,无法在5G时代继续下去。

人力要求和企业成本的挑战——与4G主要面向消费者市场不同,5G将赋能千行百业,与各行各业的生产效率、业务创新等紧密相关,这要求5G新业务能敏捷上线,业务发布将从原来的几个月缩短到几天,甚至是小时级,还要求运营商提供高SLA的网络来保障企业的生产、业务等流程高效稳定运行,否则可能会给行业带来经济损失,这单靠传统的人工运维模式无法支撑业务及网络的要求。同时,5G时代不仅网络更复杂,业务更多样化,伴随着低时延应用和行业专网兴起,还将有大量MEC边缘节点广泛分布于网络的不同位置,这都将新增大量的上站维护工作量和运维成本,因此,如何最大程度减少Opex,是运营商在5G这个新战场上不得不考虑的问题。

如何破除以上挑战?

在这样的挑战背景下,业界做了很多的探索和尝试,试图在方案架构,运维技术,运维方式等方面进行变革,将自动化,智能化引入5G核心网运维。有人提出一个有趣的设想,我们的网络是否可以像自动驾驶汽车一样,在没有人干预的情况下,自动,智能的行驶。这样的假设让业界产生了很强的共鸣,也展开了无数的讨论,其中比较著名的就是TMF提出的自动驾驶网络的5层演进节奏,全面诠释了网络在未来10年的演进方向。

那5G时代的核心网运维如何逐步实现“自动驾驶”呢?

运维架构转型

首先需要考虑的是运维架构层面的改变。

AI引入日常监控场景——主动预防实现亚健康状态精准识别

另一个非常重要的转变就是技术的改变。这里,大部分的厂商都尝试通用引入AI技术,自动化,智能化的处理核心网运维问题。

那如何通过AI技术去解放工程师日常的运维工作呢?

我们从阈值的设置入手,看看通过AI如何进行智能的KPI的异常检测。刚才我们提到,传统的阈值设置是基于专家经验设定的静态阈值,工作量大,也不准确,隔上一段时间,还需要根据现网的实际情况进行阈值的纠正调整。这里,华为提出了动态阈值的概念,如何理解呢?首先,有一个AI的训练模型,每周对现网历史数据进行采样,通过AI算法持续的去训练校准这个模型。然后,将现网的实时KPI数据导入训练好的模型中,得到动态阈值范围,也就是说,当网络发生变化时,阈值范围也会发生变化,因此,在网络出现异常的早期阶段,就会有潜在的KPI指标超过阈值范围,系统上报异常。这样,在某种程度上,可以帮助我们提前发现网络隐患和故障,而不是在主要KPI已经异常后去处理故障。

动态的阈值,能够精准的发现网络隐性事故,但是实现运维的闭环,还需要智能的对异常情况进行分析,快速找到根因。这里,华为提供了一种多指标关联分析功能,如果某个KPI指标异常了,系统可以按照贡献度去对相关的指标进行排序,工程师可以基于此快速的找到最大贡献度的KPI,从而快速的定位问题的根因。

AI引入变更操作场景——构筑“三道防线”实现机器值守

除了日常监控场景外,重大变更场景也会使用AI。

我们知道,在5G时代,产品版本发布频率越来越高。因此,会进行大量的重大操作,如普通升级、灰度升级、配置变更、扩容等。现网70%以上的重大事故是由于网络变更导致的。一旦异常,对业务和用户体验影响很大。每年有数千次的变更,给运营商带来了巨大的挑战。同时,由于人工操作量大,网络异常识别平均耗时5小时。导致在业务影响增加时,无法提前分析和发现异常,这样就错过了解决问题的时间窗口。

因此,在这种场景下,工程师希望运维方案能够建立变更前、变更中、变更后三道防线,提前规避风险和问题。

现在,让我们来看看这个系统是如何工作的。

AI的引入,最终实现从被动运维到主动运维转型

以上分享了两个引入AI的运维场景。不难发现,将AI引入到运维的场景后,传统运维方式逐渐发生了变化。传统的方式是一种被动的运维方式,就是当故障已经出现了,我们才通过各种各样的系统,方法,以及人工的方式,去尽可能快速准确的进行故障定界定位,从而快速恢复。而AI的引入,让我们对运维的模式有了新的想法。我们可以基于AI技术去进行主动运维,也就是说在故障发生之前,主动的识别网络的风险,将网络的亚健康问题暴露出来,在它变成故障之前就把它处理掉,而不是等亚健康问题变成故障后,才去解决问题。然后再通过AI技术,快速的定位问题,将风险快速识别。

5G让网络自动驾驶成为了焦点,而AI的引入加速了网络自动驾驶的演进。未来的5到10年将是网络自动驾驶快速孵化,演进的时代,让我们拭目以待。 责任编辑:tzh

上一篇:网络性能测试仪器(网络性能测试方法及常用测试工具有哪些)
下一篇:ai智能运维 解读(智能运维 aiops)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~