zabbix告警邮件（zabbix误报）-睿象云平台

zabbix告警邮件（zabbix误报）

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本篇文章给大家谈谈zabbix告警邮件，以及zabbix误报对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。今天给各位分享zabbix告警邮件的知识，其中也会对zabbix误报进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、日志文件是每天生成一个新的文件，如何用zabbix监控日志？
2、zabbix监控怎么添加报警人
3、查询zabbix数据库alerts怎么看告警的恢复时间

日志文件是每天生成一个新的文件，如何用zabbix监控日志？

一、创建模板
以上是已经创建好的模板，名为“Template App Java logs”
创建应用集
二、创建监控项
键值示例：log[/app/wutongshu/monitorlog/error.log,ERROR,,,skip,]
说明：1、"/app/wutongshu/monitorlog/error.log"表示日志路径
2、"ERROR"表示匹配的关键字
3、"skip"为可选参数，表示跳过旧数据
参数介绍：
参数介绍：
file - 日志文件的全路径。
regexp - 过滤日志的正则表达式。
encoding - 字符编码，默认为英文单字节SBCS(Single-Byte Character Set)。
maxlines - agent每秒发送给server（或proxy）的数据的最大行数，这个参数会覆盖掉zabbix_agentd.conf配置文件里的'MaxLinesPerSecond'参数。
mode - 可填参数：all（默认），skip（跳过旧数据）。
output - 自定义格式化输出，默认输出regexp匹配的整行数据。转义字符'\0'表示regexp
三、创建触发器
表达式：{Template App Java logs:log[/app/wutongshu/monitorlog/error.log,ERROR,,,skip,].str(ERROR)}=1 and {Template App Java logs:log[/app/wutongshu/monitorlog/error.log,ERROR,,,skip,].nodata(60)}=0
拆开解析：
{Template App Java logs:log[/app/wutongshu/monitorlog/error.log,ERROR,,,skip,].str(ERROR)}=1表示如果匹配到“ERROR”关键字，表达式为真。
{Template App Java logs:log[/app/wutongshu/monitorlog/error.log,ERROR,,,skip,].nodata(60)}=0表示60秒内有数据产生则表达式为真，即60秒内如果没有新数据了，则表达式为假。
and表示同时满足两个条件，触发器才会触发。
四、验证
告警邮件如下：

zabbix监控怎么添加报警人

zabbix监控添加主机，报警、监控的设置
根据使用zabbix这么久的经验，总结了一套zabbix比较实用的添加主机、监控报警的使用流程，供大家参考。
一：添加处理方法，就是如何报警
打开zabbix的管理------处理方法----create media type:
我用的是脚本发邮件的方式来报警的，脚本名字为mail.py。指的一提的是脚本存放位置，我的脚本是放在/usr/local/zabbix/bin/目录下面，在这里不写目录的据对路径，直接写脚本名字，他的路径设置是在zabbix服务器端的配置文件中设置的，在zabbix_server.conf配置文件中设置：AlertScriptsPath=/usr/local/zabbix/bin/
二：添加zabbix用户和组，设置其邮箱地址等信息
1：打开zabbix的管理------用户---选择用户组下拉----create user group：
填写个组名，设置需要的权限直接保存就成，其他的不用填写和选择。
2：打开zabbix的管理------用户---选择用户下拉----create user：
填写用户信息
3：添加报警介质，就是报警方式，因为是报警，【信息】那项就不用勾选，信息一般就是服务器信息发生变化时报警，这个一般没有什么意义，所以不勾选，不过你也可以选择，根据个人喜好。类型的话就是选择处理发放中的报警介质，选择你添加的。然后可以保存信息，完成添加用户（Permissions那项没有不填写）。
三：报警触发器触发的动作设置
当监控项中的触发器达到你设置的报警值之后，需要执行操作来发送邮件等动作。具体设置：
1：打开zabbix的系统配置---操作---- 选择事件源为触发器------create action:
2：触发条件设置：
3：详细操作设置，即满足触发条件之后执行什么动作，这里一般设置为发邮件之类的，设置收邮件的用户（建议每个组对应一个用户，这样发邮件的时候容易设置发送对象）：
四：zabbix中常用到的几个key
Zabbix的key可以理解为zabbix的命令，执行这个key可以得到相应的结果。
1：监控端口的：net.tcp.port[,3306]
/usr/local/zabbix/bin/ -s192.168.8.120 -knet.tcp.port[,3306] 返回1为192.168.8.120的端口3306存在，0为不存在
2：监控进程的：proc.num[mysqld]
/usr/local/zabbix/bin/zabbix_get -s192.168.8.120 -kproc.num[mysqld] 返回值为192.168.8.120中mysqld的进程数量
/usr/local/zabbix/bin/zabbix_get -s192.168.8.120 -kproc.num[] 返回值为192.168.8.120中所有的进程数量
3：查看CPU核数的：system.cpu.num 返回值为服务器CPU的核数
4：查看系统的系统启动时间和当前时间：system.boottime、system.localtime 返回值为系统启动时间和当前时间，为时间戳格式
5：查看系统的简单信息：system.uname 返回值为192.168.8.120的系统信息，类似于linux系统的uname -a命令
6：查看windowns系统当前网卡的进出流量：net.if.out[{HOST.NAME},bytes]、net.if.in[{HOST.NAME},bytes]和linux系统的key：net.if.out[eth0,bytes]、net.if.in[eth0,bytes]一样
/usr/local/zabbix/bin/zabbix_get -s192.168.8.120 -knet.if.in[192.168.8.120,bytes] 返回值为IP为192.168.8.120的进流量，此值为计数值，单位为bytes，减去上次取得值，除以时间间隔为此段时间内的平均流量
/usr/local/zabbix/bin/zabbix_get -s192.168.8.120 -knet.if.out[192.168.8.120,bytes] 返回值为IP为192.168.8.120的出流量，此值为计数值，单位为bytes，减去上次取得值，除以时间间隔为此段时间内的平均流量
7：查看系统内存大小：vm.memory.size[total]，返回值单位bytes
8：查看文件的大小： vfs.file.size[file] 如： vfs.file.size[/var/log/syslog] 返回的是/var/log/syslog的大小，单位是：bytes
9：查看文件是否存在：vfs.file.exists[file] 文件如果存在返回0，不存在返回1
10：查看文件的MD5：vfs.file.md5sum[file]查看小文件的MD5，返回为MD5值(好像只有2.0以上的版本有这个key)
11：自动发现网卡并监控流量和自动发现分区及分区挂载情况的两个key：net.if.discovery，vfs.fs.discovery，windows和linux监控模板中都有这模板(2.0以上版本)，应用即可
以上是常用的key，其实监控服务器无非就是内存、硬盘占用、CPU负载、流量、服务器和端口等情况。如果要监控其他的可以自定义key来实现，本人喜欢自定义key，写个脚本来返回，得到自己想要的监控结果，zabbix在这块做的非常好，扩展性很强，支持各种脚本来实现自定义的key。
要启用自定义key，需要在客户端的配置文件中启用UnsafeUserParameters=1参数，然后在配置文件的最下面来定义key，如：
UserParameter=free.disk,/usr/local/zabbix/bin/disk.py
free.disk为key的名字，/usr/local/zabbix/bin/disk.py为服务器端调用free.disk这个key时执行的脚本，其结果就是free.disk的返回值。脚本可以是任何可以运行的脚本语言。
五：创建监控模板和监控项
其实在zabbix服务器端安装完成之后，就有许多自带的监控模板，基本上可以满足大众化的监控需求，不过其中有许多是没有必要的监控项或是自己不感兴趣的，比较冗余，所以要做好监控的话，还是自定义模板和监控项，这个监控模板可以修改zabbix系统自带的，也可以自己创建。以下为自己创建监控模板。
1：创建监控模板：
打开zabbix的系统配置---模板----create template:
填写模板名字和模板所在组保存即可。

zabbix告警邮件（zabbix误报）

查询zabbix数据库alerts怎么看告警的恢复时间

zabbix的告警通知非常灵活，支持的通知类型有Email、Jabber、sms、script 。其在设备需要修护时，同样可以提供同nagios 一样的设备维护期间，暂停告警的功能有，而且其相对于nagios 更加灵活。本篇就针对zabbix的告警和设备维护功能进行下说明。
一、media types 告警通知
本篇以脚本通知为例进行说明
1、配置AlertScriptsPath
# vim /etc/zabbix/zabbix_server.conf
找到# AlertScriptsPath=${datadir}/zabbix/alertscripts 行，增加如下内容
AlertScriptsPath=/etc/zabbix/alertscripts
配置完成后，需要重启zabbix_server服务生效，在后面media type 写入的脚本名称就会从上面的配置目录中查找并执行。
2、创建media type
步骤为：登录 zabbix web 页面------Administration--------Media types--------Create Media Type(右上角) ，如下图：
配置完成后，save保存即可。
3、创建Action
步骤为：登录 zabbix web 页面---- Configuration ---- Actions ---- Create action , 如下图
subject为发送主题，message为发送内容（通过message内容的自定义，可以例如在告警时，将其他相关信息也进行通知，可以从侧面了解整个主机的运行情况－－－某次面试时面试官曾提过的需求），这两者的内容都可以很方便的进行更改。勾选了Recovery message 选项，会在监控项恢复时也会给一个恢复的提示。
condeitions 选项中设置的是触发通知的条件，默认情况下只有A、B两项，这里可以设置触发级别、主机组、主机、触发值、应用等。举例说明下：
1、可以根据告警级别进行通知，如severity 级别大于等于average时，通知OPS运维人员，级别为Disater时通知部门经理或者BOSS （这需要配置两个action）;
2、也可以根据时间进行定义，如只在工作时间进行告警通知；
3、如果你喜欢的话，也可以指定不同主机组通知到不同的人；
而且所有条件之间的关系可以是AND或者OR ，默认情况下都是AND，即所有条件都满足时，触发通知。
注：个别主机，如DB主机，晚上有备份任务导致晚上某段时间过载（同时又不是所有主机都这样，又不想增大触发条件的话），可以在configuation －－－hosts 里的items 选项里配置通知的时间范围，那里也有 time period 配置选项（从另一方面也反映了zabbix的灵活，有宏观调控，也有微观调控，适用性很强）。不过要尽可能的都在actions 里进行配置，因为这一般查看具体条件都是在这里。
下图是action的Operations部分，该项是必填项：
Operation details 是一个比较强的配置项，这里主要有三个知识点－－－Escalations、remote command 和 event acknowledged，其中Escalations、remote command比较重要。
operation details 的 step部分主要和escalations 相关，在监控场景中，如果你一天收到100+的短信告警，真有一天“狼”真来了估计你也不会注意到。有了escalations功能，可以实现如下配置（需配置多条operation）：
1、在单位时间内（step duration）发送的总的通知次数（to - from +1 次），并通知到相应的组或人；
2、假如条件1中设置的是1800秒内发送1-5 次给OPS运维人员，结果运维人员在该时间段未能处理；我们就可以再增加一个Operations，指定from 5 to 10 (第5到10条告警)通知给运维经理；我们还可以再增加，第11－15条给BOSS ，第16－20条告警时执行一个远程命令。
escalations部分，可以参看官方文档。
第二个知识点就是Operation type部分，类型可以是send message进行通知，也可以是remote command ：
remote command 可以支持的操作有IPMI、Custom script、ssh、telnet、Global script （其中前两者只能在zabbix server 或 zabbix proxy上操作），该功能是相当牛B的。如，检测到一个tomcat 服务404，我们就可以利用该功能重启tomcat 服务。
remote command部分可以查看官方页面。
第三个功能主要是为有值班人员或上班时间准备的一个功能，当设置这个条件时，如果一个告警的状态被设置为ACK ，则本次告警的后续通知就会停止。
在一线运维人员接到告警信息时，在zabbix 的首页上，移到相应告警提示的部分，选择主机的ACK 部分，点选 NO ，会跳出一个message的窗口，在message里输入相关信息，如：误报、因什么什么原因在调试、已通知到相关责任人等，并点击Acknowledge 提交，此时的ACK 状态会变成YES 。本次告警也将停止不再进行。直到本次告警解决，下次再次出现同样告警时，该项又会重新变成ACK 。
Acknowledge部分，可以参看官文页面。
二、maintenance 维护
在线场景中，经常会遇到这样的情况：在线产品需要进行升级或其他操作，此时又不想将监控系统的完整告警功能进行全部关闭，只临时关闭在线升级主机的告警。这就可以使用zabbix的maintenance功能。具体配置方式如下：
创建maintenance的步骤为：登录 zabbix web 页面---- Configuration-----Maintenance ----- create maintenance period ，如下图所示：
第一选项卡配置的是任务名和一个大范围的时间值，其指定了维护所在的磊的时候段在什么范围。maintenance type 指定在维护期间是否仍进行数据搜集。
periods指定的时间段具体的维护时间段，和maintenace中的范围为包含关系。而period type指定了执行的类型，其类型有one time only 一次执行，也有按日、星期或月定期执行，如果是后三种方式，date项会变成具体的间隔、开始时间。无论是何种类型，都有maintenance period length型，其指定了具体每次维护的持续时间，如2小时。
hosts groups 项太多内容，就是选择某组主机或某个主机在维护期间不进行告警通知。关于zabbix告警邮件和zabbix误报的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。 zabbix告警邮件的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于zabbix误报、zabbix告警邮件的信息别忘了在本站进行查找喔。

告警通知变得轻松便捷——微信告警接口指南

853 2022-12-26

zabbix告警邮件（zabbix误报）

日志文件是每天生成一个新的文件，如何用zabbix监控日志？

zabbix监控怎么添加报警人

查询zabbix数据库alerts怎么看告警的恢复时间

实时警报通知：微信告警通知的重要性解析

告警通知变得轻松便捷——微信告警接口指南

睿象云智能告警平台的分派策略