案例|直击传统运维痛点 Cloud Alert 助力上海博泰告警管理变革

作者:小编 发布时间:2021-04-12 阅读:

前言

创办于 2009 年的上海博泰是目前亚洲首屈一指的车联网公司。随着博泰的业务规模不断扩大,业务场景的不断创新,系统之间相互关联更加紧密,告警数量也急剧增加,对运维来说是非常大的挑战。

通过 Cloud Alert 智能告警平台的全面部署,快速接入各类告警信息,运用人工智能算法,从海量告警数据中挖掘内在关系,明确衍生告警和根源告警,准确定位故障根因。

blog博泰.jpg

业务诉求

伴随着博泰的飞速发展,业务的不断扩充,应用复杂度的持续增加,博泰希望通过实施一套适应业务和管理成熟度发展规律的科学化告警管理体系,建立规范有序、切实有效的运维机制,从而支撑业务的稳定运行与发展。

  • 告警消息繁杂:在异常大面积发生或关键节点出现异常时,运维团队往往会收到数百条告警,频发的告警噪音会干扰工程师的工作状态,从而忽略有效告警信息,十分不利于问题的快速定位;

  • 通知方式单一:告警信息仅可以通过邮件通知给IT运维人员,单一的通知方式,对告警的及时处理会产生一定影响;

  • 告警处理效率低下:告警处理主要基于运维人员的经验去判断,很难精确定位根源告警和故障发生点,往往会拖延了处理告警的最佳时期。

部署成果

Cloud Alert 助力告警管理新升级

Cloud Alert 智能告警平台,利用人工智能算法,深入发掘系统告警内在关联规律,准确定位根源告警,从而实现精准、自动的告警关联、告警压缩、故障定位、分派通知、回溯管理,实现告警事件的全生命周期管理,帮助博泰构建稳定、可靠的业务运维体系。

跨平台告警无缝集成:Cloud Alert 几乎支持了国内外所有常用的运维监控工具,其中就包括博泰一直在用的 nagios。在满足其服务水平协议的同时,为内部的运维人员提供了灵活的工作方式;

image.png

  • 智能化告警分析:Cloud Alert利用卷积神经网络和循环神经网络模型,对所有告警消息进行智能关联分析,快速定位故障问题根因,大大缩短了故障排查及恢复时间,帮助运维人员能够快速响应;

0015dd4f4b81d49c9e30ee9b74d977e

  • 多渠道分派处理,通知必达:Cloud Alert提供有序的分派策略和升级机制,将告警直接分派相应人员;然后采用多方式通知,重要的告警可通过短信和电话的方式通知,Cloud Alert保障告警可达率高于99%,将告警送达时间缩短至2分钟以内;

0015dd4f3d6a8cd42bc38bbd70a6025

  • 更好的平衡工作与生活:Cloud Alert 能够将信号与数千个告警产生的噪音区分开来,配合排班分派策略,运维人员只需在自己要立即采取行动的事件中被通知,告别在半夜被不重要告警唤醒的烦恼。并且Cloud Alert具有多种移动化的处理方式,可随时随地方便的接收、查看并处理报告。

客户反馈

博泰运维负责人谈到,我司主要做车联网业务,业务平台主要部署在云上,此次与睿象云的合作,帮我们把一直使用的各监控工具全部接入到Cloud Alert 平台统一管理,帮助我们极大地提升了告警消息的及时率和到达率。同时依托平台的分派能力,建立起了多层联动协作机制,配合多种人性化的通知处理方式,缩短了故障处理和恢复时间,实现从粗放运维到精细运维、从职能管理到流程管理的转变。充分保证了博泰系统的可用性及可靠性,为博泰后续的业务发展提供了有力的IT支撑和保障。


TAG标签:
立即开启智能告警管理之路
@版权所有 © 四川睿象科技有限公司 - 蜀ICP备19004207号