【本书配有免费视频和案例】作者带大家读《Prometheus云原生监控:运维与开发实战》-睿象云平台

【本书配有免费视频和案例】作者带大家读《Prometheus云原生监控:运维与开发实战》

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

【本书配有免费视频和案例】作者带大家读《Prometheus云原生监控:运维与开发实战》

昨天收到书，用了两天时间，我也亲自把这本书读完了一遍。今天写这篇文章的目的是带读者用正确的方式读这本书。

首先要和大家说的是，这本书除了上百个案例以外，是配有免费视频的。重要的事情说三遍，配有免费视频的、配有免费视频的、配有免费视频的！！！地址如下：

https://imooc.com/learn/1231

其次要和大家说的是，在写这本书的期间，我的确读过了很多同类型的书籍，今天在微信朋友圈偶然翻开了记录。

接下来进入导读环节：

第一章

第一章是理论基础，第一章的内容我写了足足一个月时间，耗时之久。它非微观，而是宏观上从方法论上几近全方位的覆盖了监控的方方面面。建议读者朋友们不要略过本章节，相信本章节一定会对大家有所启发。

举个例子，本章甚至对很多监控系统的英文名都做了罗列，可以看出作者是很用心的在做这件事，诸如：

Nagios 原名NetSaint，是NagiosAin'tGonna Insist On Sainthood的缩写，Sainthood 翻译为圣徒，而Agios是saint的希腊表示方法。

Ganglia的英文直译为神经节、中枢神经，项目的名称其实已经反映了作者的设计思路，即将服务器集群理解为生物神经系统，每台服务器都是独立工作的神经节，这些神经节通过多层次树突结构连接起来，既可以横向联合，也可以从低向高逐层传递信息。具体例证就是Ganglia的收集数据可以工作在单播（unicast）或多播(multicast) 模式下（默认为多播模式）。很多通过cacti或者Zabbix看不出来的集群总体负载问题，都能在Ganglia中体现，其集群的熵图可以明确集群负载状况，这是Ganglia最大的亮点。

Falcon 是猎鹰、隼的意思，鹰眼具有精准、洞穿的特点。

第一章精心准备了大量的表格，比如Zabbix、Nagios、Ganglia、Open-Falcon、Prometheus等主流监控系统全方位的对比；比如Go语言开发的系统生态，监控系统、微服务框架、WEB框架、WEB工具、容器项目、PAAS工具、数据库工具、存储工具及分布式文件系统、消息系统、服务管理工具、安全工具、网络工具、分布式系统、区块链项目等；以及从功能、性能、数据存储、服务发现、运维管理、开发语言、社区力度及生态发展、误区探讨等九个角度进行监控系统的选型分析思路。

第一章最后给读者的启示是，千万不要迷信权威。不要迷信权威，不能人云亦云。不是别人说好就是好，一定要自己亲身试验过才有发言权，实践出真知，比如Prometheus的作者就亲自怼过社区关于VictoriaMetrics的不实言论：

第一章部分原文：

不同的企业成长时期也可以选择不一样的监控系统，CMDB+Zabbix在一定的量级以内还是非常靠谱和稳定的，一台机器就可以扛住很多的监控业务。如果您的业务和技术并没有达到那个量级且中长期达不到那个量级，投入大量人力物力搞出来的那个“巨无霸”，真的非常有意义和价值吗？很多经验丰富的技术人员用过的监控系统应该不下十种，每款监控工具都有自己的优缺点，并不是越新的技术就越好，不能盲目跟风，没有最好的只有最合适的。Nagios，虽然历史悠久，但是在实际运维中依然有它独立存在的意义，在一些基本的监控项目中甚至比高大上的Prometheus更加方便：比如针对ping和telnet port这两项最基本的监控，prometheus有一个up功能函数进行支持，但是只有两个状态up和down，而Nagios对这种状态比较少的监控更为简单直接。盲目追新并不是监控选型的态度，专业的监控架构是综合实际使用情况去做设计做规划，多种监控可以根据实际情况结合使用、相辅相成。

十万的用户有十万的架构方案，百万的用户有百万的架构方案，千万的用户有千万的架构方案，亿级的用户有亿级的架构方案。就好比，我团队一个成员开会时曾提出，“现在我维护的网关系统，界面不太好看，我想请前端资源帮我美化一下”。我直接回复：“现在应该没有人接入你的网关吧，当前第一要务是接入，美化的事情并没有接入那么重要，当前也没有必要浪费前端资源”。什么阶段就应该做什么阶段的事情。

第二、三、八章有免费视频辅助阅读！

第二章和第三章，手把手带大家搭建基于Spring Boot 2.x的实战监控体系，让大家体会企业项目面向DevOps开发的监控情景。

第八章是第二、三章的升级，大家可以和二、三章以及视频内容结合起来学习。另外，市面上的Prometheus邮件告警内容都没有cc和bcc功能，本书79页针对抄送和密送能力进行了补充。

这是有免费视频的，如果看不懂的同学请结合免费视频学习：

https://imooc.com/learn/1231

第四、五章请作为工具书使用

第四章和第五章，用了80多页介绍了PromQL，作者给出了上百个实际案例，这是其他Prometheus书籍和官方文档都没有的。这部分内容，阅读了大量的资料，也做了不少的实践。一个个案例剖析，甚至精确到PromQL的极致优化。

没有深度使用Prometheus的用户，第四章和第五章的实战部分可以直接跳过，看看概念就行。如果需要使用的时候可以当作工具书使用。

以下是第四第五章的部分实际样章照片，含有大量的思考、误区规避、注意事项、案例等：

第六章

第六章请大家一定要围绕这张架构图去理解Prometheus告警机制的原理：

第六章也给出了非常详细的类似代码注释一般的配置文件的编写与解读，希望对读者有帮助

第六章还给出了关于告警过程中分组、抑制、静默等问题做了分析指导。解答技术人员在运维Prometheus过程中，普遍遇到的问题：

l 为什么该告警的时候不告警？

l 为什么不该告警的时候偏偏告警了？

第七章

第七章分析了很多Exporter的实现原理，并指导读者如何编写自己的Go语言Exporter。

该章节运用软件工程的知识，通过专业的软件研发流程指导开发者编写Exproter过程中需要注意的方方面面。

对于安全问题，本章还给出了一个彩蛋，《Exporter高级：开启TSL连接和Basic Auth认证》，感兴趣的读者可以阅读本内容。

第九章

第九章介绍了Prometheus集群实战的架构问题，讨论多种集群集解决方案的理念、方法及优化手段，探究如何构建更具有扩展性和可靠性的集群实现。对集群感兴趣的同学可以关注本章节。

基于Prometheus搭建SpringCloud全方位立体监控体系

技术长文|盘点Go语言开发的那些架构、中间件和系统

【2019.11.11】New Features in Prometheus 2.14.0

第十章

第十章主要围绕Prometheus 3.0版本存储的原理，即Prometheus 2.0版本之后的Prometheus TSDB的本地存储，从存储文件的格式、存储的原理、chunk、索引、block、WAL日志、tombstones、Checkpoint等相关知识点展开，揭开Prometheus存储的神秘面纱。

部分内容照片如下所示，对存储原理感兴趣的读者可以了解一下：

第十一章

第十一章是Prometheus关联技术的技术拓展。

首先从集群上，在第9章《Prometheus集群实战》的基础上，将联邦+远程存储的集群方案基础上扩展性地又介绍了Thanos和M3DB的相关技术，并将实际集群运维过程中存在的一些问题做了指导和建议。

然后通过集成Prometheus的理念的Loki，详细介绍了Loki、ELK、EFK等相关日志领域技术的原理和架构方案。

最后，介绍了Prometheus Operator模式来有状态的运维和管理组件的机制，包括Prometheus在实战中应该如何灵活运用，成为真正监控领域的独孤九剑。

灭霸和洛基的两段描述为例，可以看出作者是尽量用通俗易懂的语言，激发读者的兴趣，让读者更加能够喜欢并热爱上Prometheus相关的技术。

总结

以上，就是我这两天自己读自己写的这本书的读书笔记。并不是划重点，而是梳理脉络，带领读者朋友们用正确的方式读这本书、用好这本书。

感谢大家的支持！谢谢！

Nagios 告警配置太复杂？CA简单实现Nagios自定义多功能告警

968 2022-10-07

【本书配有免费视频和案例】作者带大家读《Prometheus云原生监控:运维与开发实战》

Nagios 告警配置太复杂？CA简单实现Nagios自定义多功能告警

监控告警的管理怎么做？

短信告警策略有哪些？短信告警和邮件告警哪个容易？