网站经常崩溃，企业应该如何做好监控？

作者:小编发布时间:2019-03-14 阅读: 次

近些年，我们的生活因互联网发生了翻天覆地的改变。从搜索引擎到即时通讯，从电子购物再到文化娱乐，从吃饭住宿到旅游出行，互联网已经渗透到我们生活的方方面面。但网站、应用崩溃的事情似乎每天都在发生，而且节假日发生系统崩溃的几率更高。

0015dd5f1709f3624fcee34e994a7a0

国庆后第一天上班，深圳市政府的网站全部沦陷。特别是近些年网站崩溃的问题，似乎时刻都在发生，而且很多都是直接影响民生的重要机构，比如今年6月25日，黑龙江高考查分通道网站崩溃；4月15日，河南沁阳市政府官网访问激增后台崩溃；2014年11月27日，12306网站崩溃3小时；2014年2月26日，北京小客车摇号指标系统网站崩溃......

究其原因，很大层面是因为我们当下的互联网环境已经变得异常复杂，网络、服务器、操作系统，还有应用及组件都可能导致网站崩溃问题。即使我们投入大量的人力物力，做了很多细致的保障工作，也难免7×24小时100%地保证网站的正常运转。那么，如何高效地利用互联网资源来实时完成线上的监控工作，已经成为企业运维人员最为关注的话题。

内部服务端监控和外部业务可用性监控

一般而言，企业监控的维度主要分两个方面：内部服务端监控和外部业务可用性监控。针对内部服务端监控，很多公司采用Zebbix、Nagios、Prometheus、Smokping、Grafana、Cacti、PageDuty等工具进行综合性的数据采集。而分析内容主要包括网络、操作系统、中间件、应用、数据库等等。从一定意义上讲，内部的监控体系建立的越完善，出现服务问题的概率就越低。

但是，内部监控体系只是解决了内部网络及服务端的问题，当外部访问监控缺失时，偶发性的故障就会出现，稍有疏忽就会出现类似假日期间网站不能访问的问题。如何有效地杜绝真实用户外网访问的异常问题，及时发现系统故障呢？我们首先从以下几个问题分析故障产生的一些常见原因，同时也会给出一些建议：

网络拥塞丢包率高

造成网络拥塞造丢包率高、网络包重传频繁的原因，一般来说主要是路由器入口带宽被大量占用网络资源不足造成的。并发用户容量评估不充分应用系统访问量过高时，导致网络接入带宽超载，每逢节假日很多票务网站流量激增，都会出现类似问题，像汽车摇号网站就会出现周期性高峰值阻塞的现象。

建议：网站接入带宽做好充分预估，建议外网接入入口根据历史同比数据，提前做好资源扩充准备。如果带宽扩充较困难，建议网络层入口做好限流准备，保证已连接用户的业务稳定性。

服务端内存泄漏

服务端有较严重Bug，当系统长时间使用时会出现细碎的内存泄漏。一般来说，出现此类问题的主要原因是应用长时间稳定性测试，没有进行验证或验证的不充分。所以当系统长时间使用过程中，内存资源就会耗尽，最终导致应用崩溃。

建议：在系统投产前，我们建议在外部网络进行超过72小时的稳定性测试，保证写入数据和生产一个月左右的数据量相同。主要观察应用系统是否可以正常释放资源，持续稳定的提供服务，如有问题尽早发现尽早解决。

外网DNS劫持

DNS劫持又称域名劫持，是指在劫持的网络范围内拦截域名解析的请求，把真实IP地址映射为虚假IP地址，从而达到让访问用户分流到虚假的网站。最终目的是分流用户后从事一系列的非法行为，如盗取用户账号，获取用户的隐私信息等。DNS劫持已经超出了内部监测的范畴，应用服务提供商一般无法阻止或控制影响范围。

建议：采用多域名接入方式，接入域名的解析服务依托两家以上的服务提供商；采用分布式DNS监测服务，定期监测服务器DNS解析的效率建立完善的DNS白名单，出现异常访问时，及时进行告警。

业务系统故障

导致业务系统故障原因很多，如系统做大范围更新时，参数配置错误导致用户地址跳转到非指定地址，虽然HTTP返回码正确，但业务却无法访问；业务系统的部分模块异常，导致局部业务无法正常访问。如某个证券公司把生产地址配置成了测试库地址，导致用户数据全部被污染，交易正常但是业务数据全部错误。一般来说，这样的问题如果没有外部访问监测系统很难被发现，监控过程中需要实时分析服务端返回数据，进而判断业务是否正常。

其实，在系统投入生产前，我们建议从以下几个维度提前考虑应用系统的稳定性及性能问题：