报警
Cloud Insight 的报警机制,采用以下的设计思路:
Cloud Insight 从不同的数据源中聚合数据,转交给报警处理引擎;引擎根据报警策略中设置的报警条件,对某一固定时间窗口内,对数值进行检查。
当引擎检查时间窗口内的数值满足条件时,触发报警事件的生成;并流送至 Cloud Insight 事件流、邮件、Cloud Alert 等不同的渠道,进行分发,通知用户。
目前版本已实现的数据源:
目前版本已实现的渠道:
- 事件流
- 邮件
触发中的报警策略
报警模块的「触发中」页面,显示当前正处于 触发状态 的报警策略。
如:某个基于指标的报警策略,当前处于 ALERT
状态,则会显示在此。
列表共由 7 项构成:
- 策略状态:
ALERT
OK
NODATA
或其他状态。 - 策略名称。
- 策略的创建人,而团队中的成员(拥有写权限)可以对其进行修改。
- 指标名称:当前策略是对哪个指标来进行检查。
- TAGS:当前策略是检查哪些主机或者标签的指标。
- 数值:该指标的当前数值。
- 触发时间:最近一次的触发时间。
点击策略名称,打开报警策略状态页。
报警策略状态
报警策略状态由 5 部分构成:
1. 策略信息
显示第一次被触发的时间,和状态;以及报警的触发条件和创建人;以及相关操作按钮。
2. 指标历史曲线
基于指标的报警,显示该指标的历史曲线图;修改右侧上方的时间选择器,来更改历史区间。
3. 指标历史状态
和指标历史曲线在时间范围上同步,显示指标在该区间内的历史状态。
4. 相关平台
该策略是针对哪些平台进行报警,并显示这些平台的情况。点击平台名称,显示平台概览。
5. 相关报警策略
基于指标的报警策略,若两个策略都是对同一个指标来进行报警,则另一个策略会显示在这里。点击另一个策略名称,打开该策略的状态页面。
报警策略操作 • 禁用
除开策略的增、删、改之外,在当前版本中,Cloud Insight 提供 禁用 和 解除禁用 的操作。
那什么是禁用呢?请看图:
当某个策略被禁用时,策略被触发时,事件就传输至 Cloud Insight 事件流 这个渠道。而不再分发至邮件、Cloud Alert 等这些对外的渠道。