AIOps 一场颠覆传统运维的盛筵
627
2022-11-07
GBase 8a MPP Cluster 统一数据平台监控与运维系统
功能简介
统一监控是南大通用数据技术股份有限公司开发的 GBase 8a MPP Cluster 的组成
部分。支持对单个或多个集群的监控,通过对集群节点的系统资源利用情况、网络
通讯情况、进程运行情况和集群运行状态等信息的采集,并根据用户设定的报警策
略进行计算,并及时通知用户报警信息,以避免集群出现故障。统一监控还将采集
信息持久化到数据库中,并提供从多个维度对集群的性能进行分析、展示,以便用
户能对集群进行调优或问题排查等。功能简介如下:
查看整体状态:集群模式、状态、锁、报警信息、节点状态、会话统计、磁盘
空间占用
集群服务器拓扑展示:包括节点状态、报警级别
单个服务器监控指标的详细数据
集群会话情况:包括查找指定节点的会话情况、移除会话、SQL 执行计划等
查看 SQL 日志:集群运行过程中的历史日志信息
系统日志:集群运行过程中产生的各类日志信息,且日志类型可配置
集群进程控制:可启动/停止指定的进程,进程可配置。
报警信息:定时获取报警信息,用户可查看历史报警信息。
集群数据库监控:数据库列表、指定数据库的表信息、列、索引、数据库和表
分别对应的数据分布状况,且这些信息都可以通过条件进行查询。
资源统计:包括集群中所有节点磁盘、网络、CPU 等的性能情况,集群数据量,
以及 DDL、DML、DQL 等执行数据量。
工具部署
统一监控主要包含采集代理、采集中心和监控网站三大部分功能模块,其中每个功
能模块又由多个组件组成。
采集代理模块包含 GAgent 组件,需要部署在 GCluster 集群节点上。该模块负
责采集集群节点的操作系统、磁盘、内存、CPU、网络流量、节点运行状态、节
点进程、以及集群的运行情况。
采集中心模块包含 GCenter 组件,负责将采集代理采集的信息持久化到资源库、
并进行节点报警处理等。一个采集中心只能对同一个集群下的代理进行采集,且
一个采集中心最多可监控 100 个采集代理。当集群规模较大时,可以部署多个采
集中心,以提升监控性能。该组件部署在 Linux 服务器上。
监控网站模块包含 gcmonitor 组件,需要部署在 Linux 服务器上。gcmonitor
组件实现了对整个集群监控的管理功能、集群整体运行状态及性能展示、集群的
数据分布情况、集群节点报警、以及统一监控的平台管理功能等。部署监控网站的准备 。
要求准备一台 Linux 服务器,用于安装监控网站。要求该服务器系统用户名和
密码与集群节点一致。
要求准备一台或多台 Linux 服务器,用于安装采集中心。如果集群规模较小时,
可以安装一个采集中心,这时也可用将采集中心与监控网站安装在同一台服务器上。
要求监控网站、采集中心和集群节点服务器网络互通。
要求准备一台已安装资源库的服务器。推荐使用 GBase 8a 数据库作为资源库。
要求所有服务器的 ssh 服务是正常开启状态。
要求安装监控网站、采集中心、资源库的机器系统时间与集群各节点的系统时
间同步。说明 统一监控提供自动安装脚本 autoInstall 安装采集代理、采集中心、
监控网站的所有组件。同时,还需要依赖第三方的组件。监控网站需要依赖 jre、
tomcat、sysstat 组件和资源库组件,资源库推荐使用 GBase 8a 数据库。
发表评论
暂时没有评论,来抢沙发吧~