无服务器架构的基本概念及运维-睿象云平台

无服务器架构的基本概念及运维

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

无服务器架构的基本概念及运维

前言

(图片来自网络)

以上是无服务器架构的基本概念。接下来，笔者将从日志，指标，监控及报警，灾备这四个维度来介绍无服务器架构下的运维。

日志

默认情况下，应用运行时产生的日志会保存在应用服务器本机，在需要查看日志的时候，需要运维人员远程登录到这台服务器获取日志信息。这种方式操作起来稍显繁琐，而且当应用服务器的数量增多后，由于需要先找出产生错误信息的那台服务器，会严重降低查找日志的效率。

一种解决办法是ELK(ElasticSearch, Logstash, Kibana)，这三个开源工具各司其职，Logstash负责日志的推送和转换，ElasticSearch作为数据库与搜索引擎，Kibana作为图形界面。好处是搭建容易，良好的伸缩性，以及免费。但带来的额外成本是，独立出来的日志服务也需要做好全方位的监控(应用状态，硬盘，网络等)，避免因为基础服务的问题导致系统全面故障。

AWS无服务器架构中的日志是一个开箱即用的服务，所有日志自动采集到AWS CloudWatch Logs中，只要根据服务名称找到对应的日志组，即可进行查询搜索，不需要任何配置，也没有任何维护成本。

指标

method，例如GET或POST

status，例如200或500

当然我们可以通过实现一些接口来扩展/自定义采集指标，这里就不展开了。有了指标数据，还需要对应的报表或仪表盘工具，以便更好地查询和展示，可以选择像Prometheus，Grafana这样的工具。

那么AWS无服务器架构是否提供了类似的指标采集呢?答案是肯定的，AWS CloudWatch Metrics自动采集了Lambda function的以下四个指标：

Invocations(实际调用量)

Errors

Duration(执行时间)

Throttles(超过并行限制而被阻止的调用的数量)

Invocations和Errors取一段时间的总数，结合二者可以得出应用的错误率，如下

Duration则通过取平均数来反映一段时间的性能表现，在笔者的项目中Lambda function的耗时主要集中在SQL的查询上，这个数字可以相应地反映技术人员对查询优化的效果。当然，在实际情况中，这些检验都可以在预发布环境下进行，这个例子只是为了方便理解。

在笔者目前的项目中，Throttle并未被使用到，默认的并发限制是1000/秒，而用量最大的Lambda function的调用频率也不过每分钟150次，距离超限差得很远，不过这一数据对于并发高的应用有很重要的意义。

除了开箱即用的几个指标以外，还可以结合CloudWatch metrics的API，在相应的功能代码中埋点，定制化采集指标。例如，对于一个Lambda function，代码里三个子task，默认提供的Duration只能反映总体的运行效率，如果需要统计每个task的消耗，就需要用到AWS CloudWatch metrics API。

监控&报警

报警功能一般则要根据实际情况自行实现。Spring Boot Admin中实现了对Pagerduty，Slack等第三方工具的集成，如果只是需要简单的邮件提醒，实现起来也不复杂，这里就不展开了。

随着云上基础设施的普及，上面提到的监控和报警早已是各个平台的标准配置，根本轮不到开发者去操心如何实现及维护，运营团队可以把更多的精力放在配置优化的工作中去。

AWS默认提供了非常完备的监控数据，也允许自定义监控dashboard，通过把一系列重要的指标添加到创建好的dashboard中，应用的运行状况一目了然。

灾难备份&恢复

在系统镜像，构建工具还有容器技术越来越普及的今天，灾难备份的意义很大程度上是为了有效保护重要数据。通常的做法是设定一些定期任务，将数据传输到远端的灾备中心，从物理上抵御不可抗灾难。如果数据量过大，出现网络传输效率跟不上的情况，可以参考AWS用卡车拉数据的解决办法。

真正需要用到灾难备份的情况在笔者有限的经历中还没有发生过，但是如果不未雨绸缪，真正发生时的后果将难以设想。笔者项目中用到的AWS RDS默认启用了以7天为周期的自动备份，这个配置可以手动调整也可以将配置写入构建基础设施的脚本中去。如果灾难真的发生，光有数据备份是不够的，还需要能够快速重建应用运行时的基础设施。笔者所在的团队(下文简称团队)分别使用了AWS CloudFormation和Serverless framework，CloudFormation用来重建数据库、网络等基础设施，Serverless framework用来重建Lambda function，在重建数据库的时候，通过持续集成流水线，以环境变量的方式传入最近一次数据备份快照的Id，15分钟以内即可重建一套产品环境。

总结

最后来谈一下成本，俗话说抛开商业化谈技术都是耍流氓，大部分人看到一个强大易用的工具都会下意识里觉得开销会很大。实际上并不是这样，我们做了一个粗算，选用双核CPU，8G内存的M4型服务器，开销是$72每月。dev，staging，prod三个环境都用同样的配置就是$216每月，而实际上Lambda每个月的开销包含所有环境在$20左右，需要注意的是Lambda的计费是根据使用量来的，我们的API访问大约在150万每月的量级。可以预见到当访问达到一定数量的时候Lambda的开销会和使用服务器的方案持平甚至更大，但是在量小的时候优势明显。

得益于强大的AWS生态，利用Lambda构建的无服务器应用经过少量甚至无需任何配置，即可以极低的价格获得完整的运维功能和体验。与自己利用开源工具进行搭建的方式相比，研发团队可以从繁琐的运维工作——特别是基础工程搭建——中解脱出来，更加专注于产品本身，极大的提高软件交付速度，可用性、可靠性和可扩展性也相当有保障。换来的代价是更高的迁移成本，某些功能的不可定制化可能成为瓶颈，以及对底层实现原理的屏蔽也可能对开发者的学习和成长有影响。