跳转至

报警

Cloud Insight 的报警机制,采用以下的设计思路:

Cloud Insight 从不同的数据源中聚合数据,转交给报警处理引擎;引擎根据报警策略中设置的报警条件,对某一固定时间窗口内,对数值进行检查。

当引擎检查时间窗口内的数值满足条件时,触发报警事件的生成;并流送至 Cloud Insight 事件流、邮件、Cloud Alert 等不同的渠道,进行分发,通知用户。

目前版本已实现的数据源:

目前版本已实现的渠道:


触发中的报警策略

报警模块的「触发中」页面,显示当前正处于 触发状态 的报警策略。

如:某个基于指标的报警策略,当前处于 ALERT 状态,则会显示在此。

列表共由 7 项构成:

  1. 策略状态:ALERT OK NODATA 或其他状态。
  2. 策略名称。
  3. 策略的创建人,而团队中的成员(拥有写权限)可以对其进行修改。
  4. 指标名称:当前策略是对哪个指标来进行检查。
  5. TAGS:当前策略是检查哪些主机或者标签的指标。
  6. 数值:该指标的当前数值。
  7. 触发时间:最近一次的触发时间。

点击策略名称,打开报警策略状态页。


报警策略状态

报警策略状态由 5 部分构成:

1. 策略信息

显示第一次被触发的时间,和状态;以及报警的触发条件和创建人;以及相关操作按钮。

2. 指标历史曲线

基于指标的报警,显示该指标的历史曲线图;修改右侧上方的时间选择器,来更改历史区间。

3. 指标历史状态

和指标历史曲线在时间范围上同步,显示指标在该区间内的历史状态。

4. 相关平台

该策略是针对哪些平台进行报警,并显示这些平台的情况。点击平台名称,显示平台概览

5. 相关报警策略

基于指标的报警策略,若两个策略都是对同一个指标来进行报警,则另一个策略会显示在这里。点击另一个策略名称,打开该策略的状态页面。

报警策略操作 • 禁用

除开策略的增、删、改之外,在当前版本中,Cloud Insight 提供 禁用解除禁用 的操作。

那什么是禁用呢?请看图:

当某个策略被禁用时,策略被触发时,事件就传输至 Cloud Insight 事件流 这个渠道。而不再分发至邮件、Cloud Alert 等这些对外的渠道。


5分钟,开启你的跨云监控之旅 (`⌄´ )