监控体系1—介绍-睿象云平台

监控体系1—介绍

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

监控体系1—介绍

监控是SRE和系统运维的核心基石之一，选择什么样的监控对系统长远的发展有着至关重要的作用。如果监控体系构建的不好那么不仅无法保证系统的稳定运行，那么会制约产品的快速发展。

监控最重要的是保证时效性、稳定性、可扩展性

监控的对象包括物理设备、业务指标、网络指标等等

不同的监控对象和不同的对象，对监控的要求是不一样的

那么监控体系应该如何选择和构建呢

首先来说监控对象：一个系统服务到底应该监控哪些东西和从哪些角度监控服务是否健康和正常运行

服务之基：服务器状态，服务器核心监控有五个cpu、内存、网卡、磁盘、io。其中cpu和内存最为常用，cpu的监控主要是两个指标idle和负载。内存常见的就是使用率，如果内存使用过高会导致oom。io也是最常见的指标之一，

网卡，网卡主要看网卡的使用情况，和丢包情况

服务之心：在谷歌的SRE书中业务指标推荐的是四个，失败率、延迟、流量、水位。失败率是最关键的一个可以实时观察当前的服务健康状态

其次是延迟，延迟主要是平均延迟和长尾延迟，很多的服务雪崩都是由于长尾导致的。流量，主要是qps。水位，qps/极限；如果是java，那么包括线程池的监控

服务之骨：关联关系

服务之眼：业务大盘

接下来我会仔细介绍每一个篇章，这里我从业务的角度来介绍，而不是从监控平台如何开发。

919 2022-10-16

监控体系1—介绍