马蜂窝牵手 Dataphant:一路有你,诗和远方
导语:智能告警平台解决了信息从系统传递到人的最后一个环节的技术问题。有了它,运维人员可以将精力投入到更有意义的事情上,这对于成长型的中小企业来说非常有价值。看马蜂窝如何玩转告警,提升能效。
面临的问题:
2006年的马蜂窝起步于社区。所以早期的时候,整体的架构设计并没有考虑大流量等问题,尤其是随着移动端的爆发,服务器数量的大量扩张,保障基础组件、服务的稳定健康运行,向运维团队提出巨大挑战。
而且随着服务架构越来越复杂,服务间的关联性日趋紧密。对基础服务监控高要求的同时,告警通知的及时性,准确性也有了更高的要求。如果大量的告警重复发送,或者关联性非常强的告警消息同时发出,势必会阻碍运维人员的视线,把真正关键的告警消息遗漏掉。
睿象科技提供的解决方案
统一集成:智能告警平台 CA 能接入十几种常见的监控工具,将告警全部在一个平台处理,满足马蜂窝全量告警接入的需求。
告警降噪:智能告警平台 CA 提供一系列的告警压缩方式,时间片和关联性压缩对减少告警噪音起到了非常大的作用。使用 CA 告警平台后,邮件和短信的数量明显减少,但是团队解决故障的效率和及时性都得到了提高,出现问题影响业务的时间大大降低。
统一分派和通知:根据运维团队成员的不同职责,不同时间、不同级别、不同主机组、不同内容的告警个性分派;CA 提供多种灵活的通知方式,比如:电话、短信、微信、邮件、APP、钉钉六种告警通知方式。并且 CA 多通道的告警通知,能控制告警延迟在秒级,保障告警的及时率和到达率。
移动端处理:CA 提供微信和APP端接收、处理告警,这样马蜂窝的运维人员,即使不在公司,也能实时了解到平台的运行情况,同时也能对系统问题实时进行处理。
多维度报表助力分析:智能告警平台 CA 提供告警分析的功能,能够根据应用、团队、成员三个维度进行告警内容的分析,清晰的了解到团队解决告警故障的平均响应时间,告警数量等指标,清晰认识团队整体的工作情况。
客户反馈
马蜂窝的运维团队的负责人表示:「非感谢 CA 这款产品,它真正的帮助我们提升了告警消息的及时率和告警到达率。而且 CA 提供了非常灵活的通知和分派,帮我们建立起了多层联动协作机制,如果问题没有被及时处理,报警升级机制就会加强,让告警不存在遗漏。更重要的是,我们现在可以通过 APP 来处理告警信息,大大提升了我们的工作效率。此外,我们借助 CA 这款 SaaS 产品,很多数据的整理工作通过线上就可以完成,同时让我们评估团队的工作有据可依,让运维也有了 KPI 考核,真正帮助我们实现了‘数据化’的管理。」