Mesos
Mesos 是一个集群管理器,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行 Hadoop、MPI、Hypertable、Spark。
Cloud Insight 监控 Mesos 资源,节点,任务的数量,CPU,磁盘数据的可视化。
性能指标
Cloud Insight 采集 Mesos 以下性能指标:
指标 | 单位 | 具体含义 |
---|---|---|
mesos.cluster.cpus_percent | percent | 分配的 CPU 占总量的百分比 |
mesos.cluster.cpus_total | CPU 的总数 | |
mesos.cluster.cpus_used | 分配的 CPU 的数量 | |
mesos.cluster.disk_percent | percent | 分配的磁盘空间占总量的百分比 |
mesos.cluster.disk_total | mebibytes | 磁盘空间总量 |
mesos.cluster.disk_used | mebibytes | 分配的磁盘空间的大小 |
mesos.cluster.dropped_messages | messages | 被丢弃的消息的数量 |
mesos.cluster.event_queue_dispatches | 在事件队列(event queque)中调度的数量 | |
mesos.cluster.event_queue_http_requests | requests | 在事件队列(event queque)中 http 请求的数量 |
mesos.cluster.event_queue_messages | messages | 在事件队列(event queque)中消息的数量 |
mesos.cluster.frameworks_active | 活跃框架(framwork)的数量 | |
mesos.cluster.frameworks_connected | 连接中的框架(framwork)数量 | |
mesos.cluster.frameworks_disconnected | 断开的框架(framwork)数量 | |
mesos.cluster.frameworks_inactive | 不活跃的框架(framwork)数量 | |
mesos.cluster.invalid_framework_to_executor_messages | messages | 失效的从 framework 传到 executor 的消息的数量 |
mesos.cluster.invalid_status_update_acknowledgements | 无效的状态更新确认消息的数量 | |
mesos.cluster.invalid_status_updates | 无效的状态更新数量 | |
mesos.cluster.mem_percent | percent | 占用内存的百分比 |
mesos.cluster.mem_total | mebibytes | 总内存 |
mesos.cluster.mem_used | mebibytes | 占用内存 |
mesos.cluster.outstanding_offers | 未处理的资源邀约数量 | |
mesos.cluster.slave_registrations | 能够干净地完成与 master 断开然后重联的 slave 的数量 | |
mesos.cluster.slave_removals | 由于各种原因(包括维护)删除的 slave 数 | |
mesos.cluster.slave_reregistrations | 重新注册的 slave 的数 | |
mesos.cluster.slave_shutdowns_canceled | 被取消的删除 slave 操作的数量 | |
mesos.cluster.slave_shutdowns_scheduled | 因为健康检查失败而被计划删除的 slave 的数量 | |
mesos.cluster.slaves_active | 活跃的 slave 的数量 | |
mesos.cluster.slaves_connected | 连接中的 slave 的数量 | |
mesos.cluster.slaves_disconnected | 断开的 slave 的数量 | |
mesos.cluster.slaves_inactive | 不活跃的 slave 的数量 | |
mesos.cluster.tasks_error | tasks | 无效任务的数量 |
mesos.cluster.tasks_failed | tasks | 失败任务的数量 |
mesos.cluster.tasks_finished | tasks | 完成任务的数量 |
mesos.cluster.tasks_killed | tasks | 中断的任务的数量 |
mesos.cluster.tasks_lost | tasks | 丢失的任务的数量 |
mesos.cluster.tasks_running | tasks | 正在运行的任务的数量 |
mesos.cluster.tasks_staging | tasks | 待处理的任务的数量 |
mesos.cluster.tasks_starting | tasks | 正在开始的任务的数量 |
mesos.cluster.valid_framework_to_executor_messages | messages | 有效的从 framework 传到 executor 的消息的数量 |
mesos.cluster.valid_status_update_acknowledgements | 有效的状态更新确认消息的数量 | |
mesos.cluster.valid_status_updates | 有效的状态更新数量 | |
mesos.framework.cpu | 框架 CPU | |
mesos.framework.disk | mebibytes | 框架磁盘 |
mesos.framework.mem | mebibytes | 框架内存 |
mesos.registrar.queued_operations | 排队的操作的数量 | |
mesos.registrar.registry_size_bytes | bytes | 注册表大小 |
mesos.registrar.state_fetch_ms | milliseconds | 从注册表读取的延迟时间 |
mesos.registrar.state_store_ms | milliseconds | 写入到注册表中的延迟时间 |
mesos.registrar.state_store_ms.count | 注册表写入次数 | |
mesos.registrar.state_store_ms.max | milliseconds | 写入到注册表的最大延迟时间 |
mesos.registrar.state_store_ms.min | milliseconds | 写入到注册表的最小延迟时间 |
mesos.registrar.state_store_ms.p50 | milliseconds | 写入到注册表的延迟时间的中值 |
mesos.registrar.state_store_ms.p90 | milliseconds | 第 90 百分位的注册表写入延迟时间 |
mesos.registrar.state_store_ms.p95 | milliseconds | 第 95 百分位的注册表写入延迟时间 |
mesos.registrar.state_store_ms.p99 | milliseconds | 第 99 百分位的注册表写入延迟时间 |
mesos.registrar.state_store_ms.p999 | milliseconds | 第 99.9 百分位的注册表写入延迟时间 |
mesos.registrar.state_store_ms.p9999 | milliseconds | 第 99.99 百分位的注册表写入延迟时间 |
mesos.role.cpu | Role cpu | |
mesos.role.disk | mebibytes | Role disk |
mesos.role.mem | mebibytes | Role mem |
mesos.slave.cpus_percent | percent | 分配的 CPU 占总量的百分比 |
mesos.slave.cpus_total | CPU 的总数 | |
mesos.slave.cpus_used | 分配的 CPU 的数量 | |
mesos.slave.disk_percent | percent | 分配的磁盘空间占总量的百分比 |
mesos.slave.disk_total | mebibytes | 磁盘空间总量 |
mesos.slave.disk_used | mebibytes | 分配的磁盘空间的大小 |
mesos.slave.executors_registering | 注册中的执行器(executor)的数量 | |
mesos.slave.executors_running | 运行中的执行器(executor)的数量 | |
mesos.slave.executors_terminated | 已终止的执行器(executor)的数量 | |
mesos.slave.executors_terminating | 终止中的执行器(executor)的数量 | |
mesos.slave.frameworks_active | 活跃框架(framwork)的数量 | |
mesos.slave.invalid_framework_messages | messages | 失效的框架消息(framework messages)的数量 |
mesos.slave.invalid_status_updates | 无效的状态更新的数量 | |
mesos.slave.mem_percent | percent | 占用内存的百分比 |
mesos.slave.mem_total | mebibytes | 总内存 |
mesos.slave.mem_used | mebibytes | 占用内存 |
mesos.slave.recovery_errors | errors | slave 恢复过程中的错误数 |
mesos.slave.tasks_failed | tasks | 失败的任务数量 |
mesos.slave.tasks_finished | tasks | 完成的任务数量 |
mesos.slave.tasks_killed | tasks | 中断的任务数量 |
mesos.slave.tasks_lost | tasks | 丢失的任务数量 |
mesos.slave.tasks_running | tasks | 运行中的任务数量 |
mesos.slave.tasks_staging | tasks | 待处理的任务数量 |
mesos.slave.tasks_starting | tasks | 正在开始的任务数量 |
mesos.slave.valid_framework_messages | messages | 有效的框架消息(framework messages)的数量 |
mesos.slave.valid_status_updates | 有效的状态更新的数量 | |
mesos.state.task.cpu | Task cpu | |
mesos.state.task.disk | mebibytes | Task disk |
mesos.state.task.mem | mebibytes | Task memory |
mesos.stats.elected | 是否是 leading master | |
mesos.stats.registered | 该 slave 是否注册 master | |
mesos.stats.system.cpus_total | 可用的 CPU 的数量 | |
mesos.stats.system.load_15min | 过去 15 分钟内的平均负载 | |
mesos.stats.system.load_1min | 过去 1 分钟内的平均负载 | |
mesos.stats.system.load_5min | 过去 5 分钟内的平均负载 | |
mesos.stats.system.mem_free_bytes | bytes | 空闲的内存 |
mesos.stats.system.mem_total_bytes | bytes | 总内存 |
mesos.stats.uptime_secs | Slave 运行时间(秒) |
配置 Mesos
编辑 Master 配置文件
在 Master 节点,编辑配置文件 conf.d/mesos_master.yaml,使 Cloud Insight Agent 可以与 Mesos Master API 通信。
init_config:
default_timeout: 5
instances:
# url: the API endpoint of your Mesos
master
- url: https://server:port
重启 Agent
重启 Cloud Insight Agent,使配置生效。
您也可以通过查看 Agent Info 信息,来验证配置是否成功。当出现以下信息,则代表安装成功。
Checks
======
[...]
mesos_master
------------
- instance #0 [OK]
- Collected 8 metrics & 0 events
编辑 Slave 配置文件
在 Master 节点,编辑配置文件 conf.d/mesos_slave.yaml
,使 Cloud Insight Agent 可以与 Mesos Slave API 通信。
init_config:
default_timeout: 5
instances:
# url: the API endpoint of your Mesos slave
- url: https://server:port
# tasks: Task's names to monitor
tasks:
- Hello
重启 Agent
重启 Cloud Insight Agent,使配置生效。
您也可以通过查看 Agent Info 信息,来验证配置是否成功。当出现以下信息,则代表安装成功。
Checks
======
[...]
mesos_slave
-----------
- instance #0 [OK]
- Collected 8 metrics & 0 events
有关 Agent Info 信息的查看,请访问帮助中心,查看 Cloud Insight Agent 常用操作。
常见问题
- 若要在同一个服务器上监控多个相同的平台服务,参考如何监控多个平台服务。
- 有任何关于产品的使用疑惑,参考常见问题。