实时警报通知:微信告警通知的重要性解析
1018
2023-03-07
本文目录一览:
统一监控平台,说到底本质上也是一个监控系统,监控的基本能力是必不可少的,回归到监控的本质,先梳理下整个监控体系:
① 监控系统的本质是通过发现故障、解决故障、预防故障来为了保障业务的稳定。
② 监控体系一般来说包括数据采集、数据检测、告警管理、故障管理、视图管理和监控管理6大模块。而数据采集、数据检测和告警处理是监控的最小闭环,但如果想要真正把监控系统做好,那故障管理闭环、视图管理、监控管理的模块也缺一不可。
一、数据采集
1、采集方式
数据采集方式一般分为Agent模式和非Agent模式;
Agent模式包括插件采集、脚本采集、日志采集、进程采集、APM探针等
非Agent模式包括通用协议采集、Web拨测、API接口等
2、数据类型
监控的数据类型有指标、日志、跟踪数据三种类型。
指标数据是数值型的监控项,主要是通过维度来做标识。
日志数据是字符型的数据,主要是从中找一些关键字信息来做监控。
跟踪型数据反馈的是跟踪链路一个数据流转的过程,观察过程中的耗时性能是否正常。
3、采集频率
采集频率分秒级、分钟级、随机三种类型。常用的采集频率为分钟级。
4、采集传输
采集传输可按传输发起分类,也可按传输链路分类。
按传输发起分类有主动采集Pull(拉)、被动接收Push(推)
按传输链路分类有直连模式、Proxy传输。
其中Proxy传输不仅能解决监控数据跨网传输的问题,还可以缓解监控节点数量过多导致出现的数据传输的瓶颈,用Proxy实现数据分流。
5、数据存储
对于监控系统来说,主要有以下三种存储供选择
① 关系型数据库
例如MySQL、MSSQL、DB2;典型监控系统代表:Zabbix、SCOM、Tivoli;
由于数据库本身的限制,很难搞定海量监控的场景,有性能瓶颈,只在传统监控系统常用
② 时序数据库
为监控这种场景设计的数据库,擅长于指标数据存储和计算;例如InfluxDB、OpenTSDB(基于Hbase)、Prometheus等;典型监控系统代表:TICK监控框架、 Open-falcon、Prometheus
③ 全文检索数据库
这类型数据库主要用于日志型存储,对数据检索非常友好,例如Elasticsearch。
二、数据检测
1. 数据加工
① 数据清洗
数据清洗比如日志数据的清洗,因为日志数据是非结构化的数据,信息密度较低,因此需要从中提取有用的数据。
② 数据计算
很多原始性能数据不能直接用来判断数据是否产生异常。比如采集的数据是磁盘总量和磁盘使用量,如果要检测磁盘使用率,就需要对现有指标进行一个简单的四则运算,才能得到磁盘使用率。
③ 数据丰富
数据丰富就是给数据打上一些tags标签,比如打上主机、机房的标签,方便进行聚合计算。
④ 指标派生
指标派生指的是通过已有的指标,通过计算得出新的指标。
2. 检测算法
有固定规则和机器学习算法。固定算法是较为常见的算法,静态阈值、同比环比、自定义规则,而机器学习主要有动态基线、毛刺检测、指标预测、多指标关联检测等算法。
无论是固定规则还是机器学习,都会有相应的判断规则,即常见的< =和and/or的组合判断等。
三、告警管理
1. 告警丰富
告警丰富是为了后续告警事件分析做准备,需要辅助信息去判断该怎么处理、分析和通知。
告警丰富一般是通过规则,联动CMDB、知识库、作业历史记录等数据源,实现告警字段、关联信息的丰富;通过人工打Tags也是一种丰富方式,不过实际场景下由于人工成本高导致难以落地。
2. 告警收敛
告警收敛有三种思路:抑制、屏蔽和聚合
① 抑制
即抑制同样的问题,避免重复告警。常见的抑制方案有防抖抑制、依赖抑制、时间抑制、组合条件抑制、高可用抑制等。
② 屏蔽
屏蔽可预知的情况,比如变更维护期、固定的周期任务这些已经知道会发生的事件,心里已经有预期。
③ 聚合
聚合是把类似或相同的告警进行合并,因为可能反馈的是同一个现象。比如业务访问量升高,那承载业务的主机的CPU、内存、磁盘IO、网络IO等各项性能都会飙升,这样把这些性能指标都聚合到一块,更加便于告警的分析处理。
3. 告警通知
① 通知到人
通过一些常规的通知渠道,能够触达到人。
这样在没有人盯屏的时候,可以通过微信、短信、邮件触发到工作人员。
② 通知到系统
一般通过API推送给第三方系统,便于进行后续的事件处理
另外还需要支持自定义渠道扩展(比如企业里有自己的IM系统,可以自行接入)
四、故障管理
告警事件必须要处理有闭环,否则监控是没有意义的。
最常见还是人工处理:值班、工单、故障升级等。
经验积累可以把人工处理的故障积累到知识库里面,用于后续故障处理的参考。
自动处理,通过提取一些特定告警的固化的处理流程,实现特定场景的故障自愈;比如磁盘空间告警时把一些无用日志清掉。
智能分析主要是通过故障的关联分析、定位、预测等AI算法,进一步提升故障定位和处理的效率;
1. 视图管理
视图管理也属于增值性功能,主要是满足人的心理述求,做到心中有底,面向的角色很多(领导、管理员、值班员等)。
大屏:面向领导,提供全局概览
拓扑:面向运维人员,提供告警关联关系和影响面视图
仪表盘:面向运维人员,提供自定义的关注指标的视图
报表:面向运维人员、领导,提供一些统计汇总报表信息,例如周报、日报等
检索:面向运维人员,用于故障分析场景下的各类数据检索
2. 监控管理
监控管理是企业监控落地过程中的最大挑战。前5个模块都是监控系统对外提供的服务功能,而监控管理才是面向监控系统自身的管理和控制,关注真正落地的过程的功能呈现。主要有以下几个方面:
配置:简单、批量、自动
覆盖率:监控水平的衡量指标
指标库:监控指标的规范
移动端:随时随地处理问题
权限:使用控制
审计:管理合规
API:运维数据最大的来源,用于数据消费
自监控:自身稳定的保障
为了实现上述监控六大基础能力模块,我们可以按如下架构设计我们的统一监控平台。
主要分三层,接入层,能力层,功能层。
接入层主要考虑各种数据的接入,除了本身Agent和插件的采集接入,还需要支持第三方监控源的数据接入,才能算一个完整的统一监控平台。
能力层主要考虑监控的基础通用能力,包含数据采集模块、数据存储模块、数据加工模块、数据检测模块、AI分析模块。
功能层需要贴近用户使用场景,主要有管理、展示两类功能,在建设的过程中可以不断丰富功能场景。
另外,考虑到数据的关联关系,为未来的数据分析打下基础,监控和CMDB也需要紧密联动,所有的监控对象都应该用CMDB进行管理,另外,还可以配置驱动监控为指导理念,实现监控的自动上下线,告警通知自动识别负责人等场景,简化监控的维护管理。
为了统一监控平台能够在企业更好的落地,我们需要配备对应的管理体系,其中最重要的是指标管理体系。
指标管理体系的核心理念:
监控的指标体系是以CMDB为骨架,以监控指标为经脉,将整个统一监控平台的数据有机整合起来。
贯穿指标的生命周期管理,辅以指标的管理规范,保障监控平台长久有序的运行。
从企业业务应用的视角出发,一般将企业监控的对象分为6层,也可以根据企业自己的情况进行调整:
基础设施层
硬件设备层
操作系统层
组件服务层
应用性能层
业务运营层
智能运维是一种全新的数字化运维能力,且是企业数字化转型的必备能力。智能运维的本质是提升运维数据的认知能力,它在提升运维数据治理能力、优化企业业务数字化风险、降低运维人力成本和提升运维在业务侧的影响力方面都有本质的提升。
智能运维,又称AIOps(Artficial Intelligence for Operations),是一种将大数据、人工智能或机器学习技术赋能传统IT运维管理的平台(技术)。
比如以我们公司的夏洛克AIOps智慧运营平台为例。它能以全局运营视角解读IT运维,在AI算法平台的支撑下实现包括精准告警、异常检测、根因定位和容量分析等场景,助力企业数字化业务高效、稳定和顺畅运行。
运维数据治理。通过高性能实时处理的数据平台广泛采集、处理和分析数字化业务运行过程中的多样化运维数据,包括告警、指标、日志、配置以及运维工单等类别,不仅提升了运维大数据的治理能力,优化了数据质量,而且为进一步激活运维数据的价值打下了良好基础;
业务数字化风险。使运维人员不仅提升了历史运维数据的分析能力并且能够对实时数据进行异常检测和问题预判,有效降低数字化业务的运行风险,提升可用性、稳定性;
运维人力成本。使真正意义上的跨域根因定位成为可能,降低对专业运维人员经验技能的依赖,迅速缩短故障排查时间并有效降低人力成本;
业务侧影响力。以业务视角利用多元化数据提高运营分析和决策能力,比如端到端的分析业务交易状态,提供给业务、客服部门及时反馈和决策支持依据,充分增强业务影响力;
智能运维发展正如火如荼,Gartner预见其为下一代运维,认为到2022年将有近50%的企业用户部署智能运维。虽然目前不少企业已经在积极投入建设,也还有一些企业处在迷茫阶段,尽早布局才能在数字化时代不会被淘汰。
随着企业数字化转型的加速,IT运维数据也迎来了爆发式增长,随之产生了更多的挑战。对于众多企业来说,在IT建设的过程中都部署过各种运维工具,但各类监控数据只会保存并做固定阈值的简单告警,这些数据互相之间不通,无法对数据进行统一分析。传统运维工作依赖工程师的经验,难以复制和留存。
部署智能运维系统后,能有效地解决这些痛点,提高运维效率。即便是现有的工程师数量也能应对数百倍增长的数据和系统。
完整的智能运维系统包含:
(1)数字运维中台:提供数据治理服务、流批一体化服务和AI算法平台服务。
(2)统一监控中心:将监控对象与运维数据关联,实现对象视角的全面可观测性方案
(3)告警辨析中心:智能化集中告警,构建闭环告警管理
(4)指标解析中心:集中管理监控指标,AI算法智能化检测分析
(5)日志精析中心/日智速析专家:海量数据处理,串联及多维分析,实时聚类检测
(6)运营决策中心:多源数据接入,多设备统一管理,自定义观测场景
简单说来,就像智能手机最终替代传统手机一样,未来的IT运维也会由智能运维统领。除了实现运维工作的降本增效外,更能提供业务视角的观测,彰显运维数据的业务价值。(这一点已在多个客户处被验证)
堡垒机运维人员告警分析报表,即在一个特定的网络环境下运维人员告警分析报表,为了保障网络和数据不受来自外部和内部用户的入侵和破坏运维人员告警分析报表,而运用各种技术手段实时收集和监控网络环境中每一个组成部分的系统状态、安全事件、网络活动运维人员告警分析报表,以便集中报警、及时处理及审计定责。
别称也叫作运维安全审计系统,简单来说堡垒机主要包含系统运维和安全审计两大功能。
防火墙与堡垒机的区别
防御对象的不同:防火墙是私有网络与公网之间的门卫,堡垒机是内部运维人员与私网之间的门卫。
防御作用的不同:防火墙所起的作用是隔断,无论谁都过不去,但堡垒机不同,它的职能是检查和判断是否可以通过,只要符合条件就可以通过,是一种被强化的可以主动防御进攻的系统。
跳板机与堡垒机的区别
登录方式的不同:跳板机属于内控堡垒机范畴,是一种用于单点登录的主机应用系统;跳板机则是一台服务器,维护人员在维护过程中,首先要统一登录到这台服务器上,然后从这台服务器再登录到目标设备进行维护。
监控行为的不同:跳板机并没有实现对运维人员操作行为的控制和审计,使用跳板机过程中还是会有误操作、违规操作导致的操作事故,一旦出现操作事故很难快速定位原因和责任人,而堡垒机的核心是可控及审计,可以运用堡垒机监控运维人员对资源(主机/网络设备/数据库/安全设备)的操作行为,以便集中报警,及时处理,审计定责。
目前, 已经有相关多的厂商开始涉足这个领域,如:江南科友、绿盟、齐治、金万维、极地、北京普安思等,这些都是目前行业里做的专业且受到企业用户好评的厂商,但每家厂商的产品所关注的侧重又有所差别。
以金万维运维安全审计系统SSA为例,其产品更侧重于运维安全管理,它集单点登录、账号管理、身份认证、资源授权、访问控制和操作审计为一体的新一代运维安全审计产品,它能够对操作系统、网络设备、安全设备、数据库等操作过程进行有效的运维操作审计,使运维审计由事件审计提升为操作内容审计,通过系统平台的事前预防、事中控制和事后溯源来全面解决企业的运维安全问题,进而提高企业的IT运维管理水平。 1、SSA是什么——运维安全审计系统
SSA运维审计系统集单点登录、账号管理、身份认证、资源授权、访问控制和操作审计为一体的新一代运维安全审计产品,它能够对操作系统、网络设备、安全设备、数据库等操作过程进行有效的运维操作审计,使运维审计由事件审计提升为操作内容审计,通过系统平台的事前预防、事中控制和事后溯源来全面解决企业的运维安全问题,进而提高企业的IT运维管理水平
2、SSA系统功能
健全的用户管理机制和灵活的认证方式
为解决企业IT系统中普遍存在的因交叉运维而产生的无法定责的问题,SSA系统平台提出了“集中账号管理“的解决办法;集中帐号管理可以完成对帐号整个生命周期的监控和管理,而且还降低了企业管理大量用户帐号的难度和工作量,同时,通过统一的管理还能够发现帐号使用中存在的安全隐患,并且制定统一、标准的用户帐号安全策略。针对平台中创建的运维用户可以支持静态口令、动态口令、数字证书等多种认证方式;支持密码强度、密码有效期、口令尝试死锁、用户激活等安全管理功能;支持用户分组管理;支持用户信息导入导出,方便批量处理。
细粒度、灵活的授权
系统提供基于用户、运维协议、目标主机、运维时间段(年、月、日、周、时间)等组合的授权功能,实现细粒度授权功能,满足用户实际授权的需求。授权可基于:用户到资源、用户组到资源、用户到资源组、用户组到资源组。
单点登录功能是运维人员通过SSA系统认证和授权后,系统根据配置策略实现后台资源的自动登录。保证运维人员到后台资源帐号的一种可控对应,同时实现了对后台资源帐号的口令统一保护与管理。系统提供运维用户自动登录后台资源的功能。SSA能够自动获取后台资源帐号信息并根据口令安全策略,定期自动修改后台资源帐号口令;根据管理员配置,实现运维用户与后台资源帐号相对应,限制帐号的越权使用;运维用户通过SSA认证和授权后,SSA根据分配的帐号实现自动登录后台资源。
实时监控
监控正在运维的会话:信息包括运维用户、运维客户端地址、资源地址、协议、开始时间等;监控后台资源被访问情况,提供在线运维操作的实时监控功能。针对命令交互性协议,可以实时监控正在运维的各种操作,其信息与运维客户端所见完全一致。
违规操作实时告警与阻断
针对运维过程中可能存在的潜在操作风险,SSA根据用户配置的安全策略实施运维过程中的违规操作检测,对违规操作提供实时告警和阻断,从而达到降低操作风险及提高安全管理与控制的能力。对于非字符型协议的操作能够实时阻断。
字符型协议的操作可以通过用户配置的命令行规则进行规则匹配,实现告警与阻断。告警动作支持权限提升、会话阻断、邮件告警、短信告警等。对常见协议能够记录完整的会话过程
SSA系统平台能够对常见的运维协议如SSH/FTP/Telnet/SFTP /Http/Https/RDP/X11/VNC等会话过程进行完整的记录,以满足日后审计的需求;审计结果可以录像和日志两种方式呈现,录像信息包括运维用户名称、目标资源名称、客户端IP、客户端计算机名称、协议名、运维开始时间、结束时间、运维时长等信息
详尽的会话审计与回放
运维人员操作录像以会话为单位,能够对用户名、日期和内容进行单项定位查询和组合式定位查询。组合式查询可按照运维用户、运维地址、后台资源地址、协议、起始时间、结束时间和操作内容中关键字等组合方式进行;针对命令字符串方式的协议,提供逐条命令及相关操作结果的显示:提供图像形式的回放,真实、直观、可视地重现当时的操作过程;回放提供快放、慢放、拖拉等方式,针对检索的键盘输入的关键字能够直接定位回放;针对RDP、X11、VNC协议,提供按时间进行定位回放的功能。
丰富的审计报表功能
SSA系统平台能够对运维人员的日常操作、会话以及管理员对审计平台的操作配置、运维报警次数等进行报表统计分析。报表包括:日常报表、会话报表、自审计操作报表、告警报表、综合统计报表,并可根据个性需求设计和展现自定义报表。以上报表可以EXCEL格式输出,并且可以以折线、柱状、圆饼图等图形方式展现出来。
应用发布
针对用户的运维需求,SSA推出了业界首创的虚拟桌面主机安全操作系统设备(ESL,E-SoonLink),通过ESL配合SSA进行审计能够完全达到审计、控制、授权的要求,配合TSA产品,可实现对数据库维护工具、pcAnywhere、DameWare等不同工具的运维操作进行监控和审计。 科友运维安全审计系统(HAC)着眼于解决关键IT基础设施运维安全问题。它能够对Unix和Windows主机、服务器以及网络、安全设备上的数据访问进行安全、有效的操作审计,支持实时监控和事后回放。
HAC补了传统审计系统的不足,将运维审计由事件审计提升为内容审计,集身份认证、授权、审计为一体,有效地实现了事前预防、事中控制和事后审计。
审计要求
针对安然、世通等财务欺诈事件,2002年出台的《公众公司会计改革和投资者保护法案》(Sarbanes-Oxley Act)对组织治理、财务会计、监管审计制定了新的准则,并要求组织治理核心如董事会、高层管理、内外部审计在评估和报告组织内部控制的有效性和充分性中发挥关键作用。与此同时,国内相关职能部门亦在内部控制与风险管理方面制定了相应的指引和规范。由于信息系统的脆弱性、技术的复杂性、操作的人为因素,在设计以预防、减少或消除潜在风险为目标的安全架构时,引入运维管理与操作监控机制以预防、发现错误或违规事件,对IT风险进行事前防范、事中控制、事后监督和纠正的组合管理是十分必要的。
IT系统审计是控制内部风险的一个重要手段,但IT系统构成复杂,操作人员众多,如何有效地对其进行审计,是长期困扰各组织的信息科技和风险稽核部门的一个重大课题。
解决之道
江南科友因市场对IT运维审计的需求,集其多年信息安全领域运维管理与安全服务的经验,结合行业最佳实践与合规性要求,率先推出基于硬件平台的“运维安全审计系统(HAC)”,针对核心资产的
运维管理,再现关键行为轨迹,探索操作意图,集全局实时监控与敏感过程回放等功能特点,有效解决了信息化监管中的一个关键问题。
系统功能
完整的身份管理和认证
为了确保合法用户才能访问其拥有权限的后台资源,解决IT系统中普遍存在的交叉运维而无法定位到具体人的问题,满足审计系统“谁做的”要求,系统提供一套完整的身份管理和认证功能。支持静态口令、动态口令、LDAP、AD域证书KEY等认证方式;
灵活、细粒度的授权
系统提供基于用户、运维协议、目标主机、运维时间段(年、月、日、周、时间)、会话时长、运维客户端IP等组合的授权功能,实现细粒度授权功能,满足用户实际授权的需求。
后台资源自动登陆
后台资源自动登陆功能是运维人员通过HAC认证和授权后,HAC根据配置策略实现后台资源的自动登录。此功能提供了运维人员到后台资源帐户的一种可控对应,同时实现了对后台资源帐户的口令统一保护。
实时监控
提供在线运维的操作的实时监控功能。针对命令交互性协议可以图像方式实时监控正在运维的各种操作,其信息与运维客户端所见完全一致。
违规操作实时告警与阻断
针对运维过程中可能存在潜在操作风险,HAC根据用户配置的安全策略实施运维过程中的违规操作检测,对违规操作提供实时告警和阻断,从而达到降低操作风险及提高安全管理与控制的能力。
完整记录网络会话过程
系统提供运维协议Telnet、FTP、SSH、SFTP、RDP(Windows Terminal)、Xwindows、VNC、AS400等网络会话的完整会话记录,完全满足内容审计中信息百分百不丢失的要求。
详尽的会话审计与回放
HAC提供视频回放的审计界面,以真实、直观、可视的方式重现操作过程。
完备的审计报表功能
HAC提供运维人员操作,管理员操作以及违规事件等多种审计报表。
各类应用运维操作审计功能
HAC提供对各类应用的运维操作审计功能,能够提供完整的运维安全审计解决方案。可依据用户要求快速实现新应用的发布和审计。
结合ITSM(IT服务管理)
HAC可与ITSM相结合,可为其优化变更管理流程,加强对变更管理中的风险控制
系统特点
支持加密运维协议的审计
领先地解决了SSH、RDP等加密协议的审计,满足用户Unix和Windows环境的运维审计要求。
分权管理机制
系统提供设备管理员、运维管理员和审计员三种管理角色,从技术上保证系统管理安全。
更加严格的审计管理
系统将认证、授权和审计有机地集成为一体,有效地实现了事前预防、事中控制和事后审计。
部署灵活、操作方便
系统支持单臂、串联部署模式;支持基于B/S方式的管理、配置和审计。
系统安全设计
精简的内核和优化的TCP/IP协议栈
基于内核态的处理引擎
双机热备
严格的安全访问控制
基于HTTPS的安全访问管理、配置和审计
审计信息加密存储
完善的审计信息备份与恢复机制
系统部署
鉴于企业网络及管理架构的复杂性,HAC系统提供了灵活的部署方式,既可以采取串连模式,也可以采用单臂模式接入到企业内部网络中。采用串连模式部署时,HAC具备一定程度上的网络控制的功能,可提高核心服务器访问的安全性;采用单臂模式部署时,不改变网络拓扑,安装调试过程简单,可按照企业网络架构的实际情况灵活接入。
无论串连模式还是在单臂模式,通过HAC访问IT基础服务资源的操作都将被详细的记录和存储下来,作为审计的基础数据。HAC的部署不会对业务系统、网络中的数据流向、带宽等重要指标产生负面影响,无需在核心服务器或操作客户端上安装任何软硬件系统。
认证资质
“运维安全审计系统(HAC)”已获公安部颁发的《计算机信息系统安全专用产品销售许可证》,已通过国家保密局涉密信息系统安全保密评测中心检测,取得涉密信息系统产品检测证书。通过国家信息安全测评取得信息技术产品安全测评证书。
发表评论
暂时没有评论,来抢沙发吧~