睿象云智能告警平台的分派策略
661
2023-03-23
用智慧帮助运维,用智慧改变运维——北塔软件助力神华燃气热电高效运维
神华国华(北京)燃气热电有限公司(以下简称“燃气热电”)服务器网络设备为响应国华电力公司统一运维的指导思想,科学构建统一运维体系,全面提升单位信息化服务的支持与保障能力,实现从粗放运维到精细运维,从职能的管理到流程的管理,从被动服务至主动服务的转变,公司需要一套完善的综合运维管理平台来保证统一运维服务体系的正常运转。
项目必要性
燃气热电作为国华公司建设的智能电站示范工程,信息化投入多,公司网络建设已达到一定规模:网络设备达到100余台,服务器30多台,虚拟机、数据库、中间件几十个,所采用的网络设备和网络应用呈现更广更深的发展趋势,企业网络业务应用也变得日益复杂。
在集团大力支持下,信息化建设已经具有一定规模,建立了庞大的网络平台和各种应用系统,拥有大量的网络设备、服务器、数据库、各种系统软件等资源,在这些IT资源为公司的业务发展和工作开展提供强有力帮助的同时,也带来了大量运行维护工作和难题。
目前公司的运维人员只能被动响应解决IT故障,无法及时掌握网络运行状况和设备的运行状况,无法做到对网络运行信息的收集、整理、统计和分析,不能及时发现潜在的隐患,只能依靠人工巡检或在故障已发生后才发现问题,基本处于被动式的“救火”状态。这种被动式运维工作,无法对网络、业务中产生的问题做到准确、及时的解决和处理,很可能由一个小故障而影响到整个网络或应用系统的正常运行。
各类规模大小不等、设备种类、数量不同的网络设备及机房广泛分布于公司各分支机构所在地域,很难被有效预见、防范和避免。因此,建立一个集中的运行管理监控系统,对集团现有业务环境中的各类资源进行实时监控,是目前迫切的需要。
基于业务服务的必要性
业务系统的建设和发展为集团的日常工作开展带来了很大的帮助,但是,在业务应用的过程中缺少一套实时、有效的监控管理系统,让业务系统本身的维护成为一个难题,一旦某个业务运行缓慢甚至中断时,无法及时判断是业务系统本身出了问题,还是和支撑业务系统的其他设备或系统出问题导致的,如服务器宕机,交换机、路由性能低下或者网络链路出现故障,不能及时判断故障所在,就不能及时解决问题,恢复业务的正常运行,严重时,甚至可能导致业务中断数小时。同时,由于没有形成一套完整的业务监控系统,运维人员不能对业务及业务相关联的资源进行总体监控和掌握,只能分割地管理各个部分,不能形成有效的、统一的运行维护管理。
因此,公司需要一套运维管理系统,能够从业务角度切入,以业务为导向,通过对整个业务系统的关注,落实业务系统的各个环节,从而来达到保障业务系统稳定运行和透明化管理的目的。
目标系统需求
本次项目实施要完成机房内的所有网络设备、服务器设备及其上软件的监控,包括操作系统、数据库、中间件、应用系统、服务器、网络设备、存储设备等,使网络上授权的用户随时可以了解现场运行情况。构建一套一体化的运行监控和运维管理平台,集中展示业务系统的运行状况,更好地实现对设备设施运行情况的监控和运维人员的管理,包括人员的工作情况、设备运转、应用支持情况等,方便地了解系统资源的使用情况,定制各类统计、分析报表,实现预测系统资源的支持能力,能够预先发现问题,进行主动的IT运维管理。
公司层面:
站在公司全域管理的高度,集中掌握各子域和各类管理应用的总体运行信息,以全局的视角审视总体管理状况,做到“事前可知,事中可控,事后可查”.
1、全域IT运维整体状况统计
全域整体健康状况评估全域网络运行负载状况查看全域机房运行状况查看全域在线资产状况查看全域重大告警状况查看
2、全域运行管理功能
网络运行状态统计全域告警管理功能全域重大告警事件统计全域告警总体处理状况统计全域网络告警状况统计
3、全域巡检管理功能
要求能够站在全局的角度展现全域的巡检统计信息,包括各个地域的巡检率、巡检正常率以及巡检指标数的统计信息,并可以进一步查看各种类型巡检的统计信息。统计时间范围分为:最近1天、最近30天、最近12个月。
4、全域报表管理功能
界面直观展现运行管理信息的同时,也要求能通过钻取到明细报表的方式来追溯问题,提供各类运行统计分析报表,为全域IT运维管理提供决策支持。报表样张内容涵盖:全域总体运行分析、子域间同业对标、并覆盖全域IT运维各类决策范围。
5、个性化展现功能
支持首页定制功能支持默认主页定制功能支持手工更换各视图中的地图支持其它页面定制功能支持快速接入方式建立领导驾驶舱,集中展示系统中各类视图
解决方案
在基于神华国华(北京)燃气热电有限公司的整体项目需求上,北塔软件合了客户的实际情况以及相关行业的解决方案分析,给出了全面完整的解决方案。
采用了北塔智能运维平台BTSO,运用智能化策略,智慧化管理,有效的解决了当前客户所面临的网络问题。
一、实现公司信息中心各项资源的集中管理和统一监控
运用先进的智能管理策略对各类信息资源执行了全天候、全方位的集中管理和实时监控。保证第一时间准确掌握设备和系统的运行和使用状况,提早发现、主动预防、快速处理、最大化地减少故障,确保公司信息资源处于最佳运行状态,有效提升燃气热电信息网运行的可靠性、可用性和连续提供服务的能力。
二、完善公司信息化基础工作
BTSO在安装部署后实现了客户资源资产的集中管理、设备状态的实时监控、异常状态和及时预警、故障快速定位、运行趋势的预测分析。以智能的流程、量化的数据统计和分析为依据,通过优化的组织结构、合理的角色分工、规范的管理流程、适合的监测方式,实现了整体信息化系统监控的智能化、操作的可视化和管理流程的自动化。从而建立起一套完整的、成熟的信息业务工作管理体系。完善了客户的信息业务管理工作信息化。
BTSO巡检效果图
BTSO主机一体化展现效果图
方案优势
1) 该方案基于智维理念,采用数据集中设计,系统层次化和模块化清晰,具有良好的扩展性和兼容性,能够快速实现与其他系统数据层集成;
2) 该方案具有完善的资源信息库,包含了配置信息、状态、性能和故障信息,无需二次开发,支持可视化建模和持续扩展,为其他系统的数据接入提供快速通道,为运维提供了统一的、可伸缩的数据层支撑;
3) 能够基于高度性能优化的资源库,提供监控实时数据、历史汇总数据、业务数据的分区管理,有效的保障运维平台的数据的处理效率,能够保障系统长期、高效的稳定运行;
4) 提供的统一事件处理平台具有企业级的事件分析能力,为在海量事件信息中寻找有价值的根源问题信息,以提高监控和运维自动化的衔接;
5) 能够基于WEB2.0 Flex/Flash等具有强大交互和动态展现的技术,为实时数据直观展现、快速大屏预警、规范化业务处理,提供技术保障;
6) 能够保持IT运维综合管理平台的可靠性和可用性,保证系统24小时不间断为集团运行管理工作提供可靠服务;
7)通过运维系统建设,建立IT运维管理体系,包括系统/网络管理,运行维护流程管理等,从而最大限度的屏蔽IT技术的复杂性,实现自动管理,降低对人的依赖;
用户评价
在完整部署基于北塔BTSO的整个方案后,不仅实现了用户对于网络管理的要求,而且提高了网络管理的高效化,智能化。得到了客户信息化部门的一致好评:
让运维人员更全面地了解到现在运行的设备情况。让领导层更快、更清晰地了解到现在信息化整体的运行状况。让信息化建设有了更充分的数据依据。让运维不再是难题,用智能帮助运维,用智慧改变运维。
发表评论
暂时没有评论,来抢沙发吧~