大数据系统自动化运维(一)--如何一键更新Hadoop集群配置文件-睿象云平台

大数据系统自动化运维(一)--如何一键更新Hadoop集群配置文件

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

大数据系统自动化运维(一)--如何一键更新Hadoop集群配置文件

前言

在学习Hadoop/Spark集群的过程中，经常会修改某个配置文件的参数。传统的做法是在主节点上使用scp命令将配置文件远程拷贝到每个从节点。如果集群的从节点个数有20个，那么scp命令会执行20次，并且每次都要修改目标节点的机器名。本文将讲述如何使用linux命令和bash脚本完成一键更新Hadoop集群的配置文件。

一，Linux环境下几个常见的命令

图1 如何打开一个文本文件

图2 如何查看文件的开始几行和最后几行的内容

图3 使用grep过滤关键字

图4 使用grep过滤关键词

图5 使用sed做内容替换

图6 使用awk做列选择

图7 使用awk做数据转换

图9 使用find查找文件内容

参数解释如下：-type指定文件类型，-name指定文件名，查找包含某关键字的文件。

二、Bash的基本语法

图10 if-else基本用法

图11 for循环的使用

图12 for循环的使用

图13 while循环的使用

三、一键更新Hadoop集群配置

图14 数组的定义和使用

图15 更新Hadoop集群的配置文件

图16 使用函数调用

图17 脚本中使用外部变量

四补充知识

有很多商业大数据产品提供了良好的用户界面来进行配置修改，底层也基本是本文的方法。另外，还有一种方式可以避免进行文件跨节点更新。使用主节点的配置目录/$HADOOP_HOME/etc/hadoop, 借助NFS，将其它从节点的对应目录远程mount(挂载)到主节点配置目录。在这种情况下，只需要一次修改主节点的配置文件，其它节点的配置会立即更新。