平台宕机报警
Cloud Insight 使用指标 ci.agent.up
来预测平台(主机)的宕机情况。设置平台报警之前,先来了解一下 Cloud Insight 平台宕机报警的实现原理。
平台宕机报警原理
每一个 Cloud Insight Agent 安装至主机时,都会默认传输 ci.agent.up
这个心跳值至 Cloud Insight 后端。
- 若
ci.agent.up
值为空,Cloud Insight 会预测该主机已宕机; - 若该值不为空,会认识该主机处于开启状态。
当然该值是否为空还与网络、后端处理速度相关,所以 Cloud Insight 平台宕机报警只提供一定的预测功能,不能确保该值为空时一定为主机已经处于宕机状态。也有可能为以下情况:
- 网络延迟导致后端未在指定时间范围内收到该心跳值;
- 后端处理速度问题导致后端未在指定时间范围内处理该心跳值;
- 主机中 Cloudinsigt Agent 处于停止状态,但是主机运行正常也会导致该值为空。
若该值在 3 天一直处于为空的状态,Cloud Insight 后端会删除该平台的相关信息,也就是说我们认为您不再需要监控该主机。
设置平台报警策略
设置报警策略的入口为:
- 查看左侧导航的报警策略,点击“添加报警策略”;
- 选择”平台报警”,进入编辑页面。
1.选择平台
默认选中所有平台进行报警监测,您也可以选择平台来指定只针对某一些平台进行监测。
2.选择报警条件
再此,需要设置多久没有收到 ci.agent.up
心跳值,进行报警。我们建议选择 5 分钟,若有特殊需求,请按照自己需求选择时间范围。
最大支持 4 小时的时间范围。
平台报警策略默认为“非聚合报警”,也就是说只要有一台平台的心跳值为空,Cloud Insight 就会发送报警触发的邮件。
3.命名报警
给该报警策略设置一个名词,来方便团队成员了解发生了什么故障。
4.通知用户
选择该策略在触发和关闭时,通知哪些团队成员。
默认平台报警策略
每个使用 Cloud Insight 的团队都会设置一个默认的平台宕机报警策略。主要您的主机安装了 Cloud Insight Agent,若该主机的心跳值在 5 分钟内为空,我们就会给您发送邮件。
若不想使用该报警策略,或不想收到相关邮件,对该策略进行禁用即可。该策略无法删除和编辑。