HDFS
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。
性能指标
Cloud Insight 采集 HDFS 以下性能指标:
指标 | 单位 | 具体含义 |
---|---|---|
hdfs.capacity | bytes | DFS 的总容量 |
hdfs.corrupt_blocks | blocks | 有 corrupt replicas 的 block 数 |
hdfs.datanode.cache_capacity | bytes | 缓存容量 |
hdfs.datanode.cache_used | bytes | 已使用缓存 |
hdfs.datanode.dfs_capacity | bytes | 磁盘容量 |
hdfs.datanode.dfs_remaining | bytes | 磁盘剩余空间 |
hdfs.datanode.dfs_used | bytes | 已使用磁盘空间 |
hdfs.datanode.estimated_capacity_lost_total | bytes | 预估容量损失 |
hdfs.datanode.last_volume_failure_date | milliseconds | 最后一次故障时间 |
hdfs.datanode.num_blocks_cached | blocks | 缓存 block 数 |
hdfs.datanode.num_blocks_failed_to_cache | blocks | 缓存失败 block 数 |
hdfs.datanode.num_blocks_failed_to_uncache | blocks | 从缓存中移除失败的 block 数 |
hdfs.datanode.num_failed_volumes | Number of failed volumes | 未启用的数据卷个数 |
hdfs.free | bytes | DFS 的总空闲空间 |
hdfs.in_use | fractions | 应用于 DFS 的磁盘空间百分比 |
hdfs.missing_blocks | blocks | 丢失的 block 数 |
hdfs.namenode.blocks_total | blocks | block 总数 |
hdfs.namenode.capacity_remaining | bytes | 磁盘剩余空间 |
hdfs.namenode.capacity_total | bytes | 磁盘容量 |
hdfs.namenode.capacity_used | bytes | 已使用磁盘空间 |
hdfs.namenode.corrupt_blocks | blocks | corrupt blocks 的数量 |
hdfs.namenode.estimated_capacity_lost_total | bytes | 预估容量损失 |
hdfs.namenode.files_total | files | 文件总数 |
hdfs.namenode.fs_lock_queue_length | Lock queue length | namenode 被锁队列长度 |
hdfs.namenode.max_objects | objects | HDFS 支持的最大文件数量 |
hdfs.namenode.missing_blocks | blocks | 丢失的 block 数 |
hdfs.namenode.num_dead_data_nodes | nodes | dead 数据节点总数 |
hdfs.namenode.num_decom_dead_data_nodes | nodes | 退役的 dead 数据节点数量 |
hdfs.namenode.num_decom_live_data_nodes | nodes | 退役的 live 数据节点数量 |
hdfs.namenode.num_decommissioning_data_nodes | nodes | 退役的数据节点数量 |
hdfs.namenode.num_live_data_nodes | nodes | live 数据节点总数 |
hdfs.namenode.num_stale_data_nodes | nodes | stale 数据节点数量 |
hdfs.namenode.num_stale_storages | Number of stale storages | stale 存储的数量 |
hdfs.namenode.pending_deletion_blocks | blocks | 待删除的 block 数量 |
hdfs.namenode.pending_replication_blocks | blocks | 待复制的 block 数量 |
hdfs.namenode.scheduled_replication_blocks | blocks | 计划要复制的 block 数量 |
hdfs.namenode.total_load | Total load on the file system | namenode 总负载(特指 regionserver 个数) |
hdfs.namenode.under_replicated_blocks | blocks | 被复制的 block 数量 |
hdfs.namenode.volume_failures_total | Total volume failures | namenode 失效数据卷总数 |
hdfs.under_replicated | blocks | 被复制的 block 数量 |
hdfs.used | bytes | 用于 DFS 的磁盘空间 |
配置 HTTP 监控
1.在 NameNode
开启 JMX URI
切换路径至 /etc/CiAgent
。
cd /etc/CiAgent
开启配置文件 conf.d/hdfs_namenode.yaml
cp conf.d/hdfs_namenode.yaml.example conf.d/hdfs_namenode.yaml
内容如下:
init_config:
instances:
#
# The HDFS NameNode check retrieves metrics from the HDFS NameNode's JMX
# interface. This check must be installed on the NameNode. The HDFS
# NameNode JMX URI is composed of the NameNode's hostname and port.
#
# The hostname and port can be found in the hdfs-site.xml conf file under
# the property dfs.http.address or dfs.namenode.http-address
#
- hdfs_namenode_jmx_uri: http://localhost:50070
2.重启 Agent
重启 Cloud Insight Agent,使配置生效。
/etc/init.d/CiAgent restart
您也可以通过查看 Agent Info 信息,来验证配置是否成功。
/etc/init.d/CiAgent info
当出现以下信息,则代表安装成功。
Checks
======
[...]
hdfs_namenode
---------
- instance #0 [OK]
- Collected 8 metrics & 0 events
3.在 DataNode
开启 JMX URI
切换路径至 /etc/CiAgent
。
cd /etc/CiAgent
开启配置文件 conf.d/hdfs_datanode.yaml
cp conf.d/hdfs_datanode.yaml.example conf.d/hdfs_datanode.yaml
内容如下:
init_config:
instances:
#
# The HDFS DataNode check retrieves metrics from the HDFS DataNode's JMX
# interface. This check must be installed on a HDFS DataNode. The HDFS
# DataNode JMX URI is composed of the DataNode's hostname and port.
#
# The hostname and port can be found in the hdfs-site.xml conf file under
# the property dfs.datanode.http.address
#
- hdfs_datanode_jmx_uri: http://localhost:50075
4.重启 Agent
重启 Cloud Insight Agent,使配置生效。
/etc/init.d/CiAgent restart
您也可以通过查看 Agent Info 信息,来验证配置是否成功。
/etc/init.d/CiAgent info
当出现以下信息,则代表安装成功。
Checks
======
[...]
hdfs_datanode
---------
- instance #0 [OK]
- Collected 8 metrics & 0 events
有关 Agent Info 信息的查看,请访问帮助中心,查看 Cloud Insight Agent 常用操作。
常见问题
- 若要在同一个服务器上监控多个相同的平台服务,参考如何监控多个平台服务。
- 有任何关于产品的使用疑惑,参考常见问题。