拍脑袋的数据库运维指标

网友投稿 969 2022-09-30

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

拍脑袋的数据库运维指标

之前对数据库恢复做了相对全面的整合,为了校验数据恢复质量,我们开启了近半年的数据随机恢复测试,也就是说为了验证数据库的恢复质量和效率,我们会每天从备份机里面随机选取12个数据库实例进行数据恢复测试,如果数据启动失败或者回放binlog失败,则会标记为恢复失败。

在早期的指标设定中,我们很快达到了从70%改进到了90%,按照这个步调,想达到更高的目标看起来指日可待,比如我拍脑袋指定了一个指标99.9%,但是尴尬的是,以月份为单位,总是会在有那么1个实例恢复失败,但是失败的场景又难以复现,所以一直没有实现这个目标。

有时候在想到底是为什么,今天突然琢磨了下,原来就是一道很简单的数学题。

假设我们每天随机恢复12次,如果允许1次失败,那么需要多少天才能达到99.9%

假设成功率为S,所以可以很快得到关系:

12n/(12n+1)=S

得到n=S/(12-12S),我们把S=0.999带入

得到n=83

这是什么概念,也就意味着我需要在将近3个月以内只能有1次失败,才能保证达到这个指标,目前来看,不是达不到,而是目标最开始就完不成,或者完成的代价极高。

换种思路,我们可以调整恢复次数,那么每天恢复多少次才能在1个星期后达到99.9%的成功率。

同理计算可得,每天需要恢复近142次,才能满足这个指标,同样这个指标也是高得离谱,我们按照1个月来计算,每天也需要30次左右才可以。

所以拍脑袋的指标真是啪啪打脸,还是得做一个简单的计算来坐下评估,当然对于这个问题我觉得可以基于统计学的角度来做更进一步的分析,因为结合实际的业务场景,有很多改进的角度,我会在评估后给出一个可行的指标。

上一篇:小数据运维之自建Kafka监控
下一篇:PowerShell:自动化运维工具
相关文章

 发表评论

暂时没有评论,来抢沙发吧~