大数据运维的职责和技能要求-睿象云平台

大数据运维的职责和技能要求

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

大数据运维的职责和技能要求

一、大数据运维的职责

一）大数据运维的职责概述

1、集群管理

大数据需要分布式系统（集群）相关软软件CDH、HDFS、YARN、Hive、Hbase、Kafka、zookeeper、Spark、Flume、Impala、Hue、Sqoop、Elasticsearch、kibana、MySQL、Oracle等等

hadoop那些xml配置如果要想生效是否需要重启进程？那么哪些配置更改不用重启呢？

服务器端相关的（NameNode、DataNode、JournalNode、ResourceManager、NodeManager），core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml的配置项修改只后都需要重启服务。任务相关的配置，比如map/reduce申请的内存数、map/reduce提交时需要指定的额外的java参数等，就不需要重启服务。2016-04-03

2、故障处理

商用硬件使得故障是常态区分故障等级，优先处理影响实时性业务的故障

3、变更管理

以可控的方式，高效的完成变更工作包括配置管理和发布管理

4、容量管理

存储空间、允许连接数等都是容器概念在多租户环境下，容器管理尤其重要

5、性能调优

不同组件的性能概念不一样，如kafka注重吞吐量，hbase注重实时性可用需要对组件有深刻的理解

6、架构调优

优化大数据平台架构，支持平台能力和产品的不断迭代类似架构师的工作

二）运维三板斧：可以解决90%以上的故障处理工作

1、运维三板斧简述

重启：重启有问题的机器或进程，使其正常工作切换：主备切换或猪猪切换，连接正常工作的节点查杀：杀死有问题的进程、连接等

2、运维三板斧的问题

只能解决故障处理问题，不能解决性能调优、架构优化等问题只能治标，不能治本

3、大数据运维和传统运维的不同

传统运维面对的底层软硬件基本稳固；大数据运维面对的是商用和复杂的Linux版本传统运维面对单机架构为主；大数据运维面对复杂的分布式架构传统运维大多维护闭源商业版系统；大数据运维通常面对开源系统，文档手册匮乏，对阅读源码要求高大数据运维对自动化工具的依赖大大增加

三）laas层运维工作

一般中大型企业有自己的基础设施维护团队，这部分工作不会交给大多数运维来做

小公司可能需要大数据运维兼任这部分工作，主要关注三方面

硬件：大数据系统大多使用廉价PC Server或虚拟机，硬件故障时常态，通过告警、日志、维护命令等识别故障，并组织硬件更换存储：大多使用PC Server挂载本地盘的存储方式，极少情况会使用SAN（存储区域网络）或NAS（网络附属存储），熟悉分区、格式化、巡检等基本操作网络：网络的配置变更需要比较专业的只是，如有需要可学习CCNA、CCNP等认证课程，但网络硬件和配置问题概率很低，主要关注丢包、延时

四）大数据运维的工作职责

1、HDFS运维工作

1、容量管理

HDFS空间使用率超过80%要报警，若是多租户环境，租户的配额空间也可能用完熟悉hdfs，fsck，distcp等常用命令，会使用DataNode均衡器

2、进程管理

namenode的进程是重点熟悉dfsadmin等命令怎么做namenode高可用

3、故障管理

Hadoop最常见的错误是硬盘损坏（所以相关的监控，可以要有，指定好相应的预案）

4、配置管理

hdfs-site.xml中的参数配置

2、MapReduce运维工作

1、进程管理

jobtracker进程故障概率比较低，有问题可以通过重启解决组件的高可用

2、配置管理

mapred-site.xml中的参数设置

3、Yarn运维工作

1、故障管理

主要是当任务异常中止时看日志排查，通常故障原因会集中在资源问题、权限问题、代码问题中的一种

2、进程管理

ResourceManager主要是学会配置HANodeManager进程挂掉不重要，重启即可

3、配置管理

yarn-site.xml中的参数设置，主要分三块配置：scheduler、ResourceManager、NodeManager

4、Hive/Impala运维工作

1、SQL问题排查

结果不对，主要原因可能是SQL错误、数据不存在、UDF错误等，需要靠经验排查慢SQL，这类问题开发经常会找运维排查，原因有可能是劣质SQL、数据量大，ye

2、元数据管理

Hive和Impala共用Hive的元数据，存在关系型数据库中

5、其他组件

根据组件用途、特性、关注点的不同，运维工作各不相同

HBase关注读写性能、服务的可用性Kafka关注吞吐量、负载均衡、消息不丢机制Flume关注吞吐量、故障后得到快速恢复.................................................

二、大数据运维的技能

一）扎实的Linux应用技能

Linux相关的管理工具grep、sed、awk等，语言shell、Python等关系型数据库MySQL、postgresql等关系型数据库技能计算机网络、操作系统等基础Hadoop生态圈的各组件原理、架构和使用技术经验的积累

二）丰富的行业领域知识、经验

沟通能力强：言之有理有据懂业务：大数据应用架构

三）阅读英文文档的能力

四）学习新技术的狂热

监控数据的可视化分析神器 Grafana 的告警实践

1539 2022-10-17

大数据运维的职责和技能要求

AIOps 一场颠覆传统运维的盛筵

AIOps 平台的误解，挑战及建议（中），AIOps常见的误解

监控数据的可视化分析神器 Grafana 的告警实践