睿象云智能告警平台的分派策略
1015
2023-03-26
泰信科技携手浙大 共建高校网络运维平台
泰信科技自1999年成立以来,秉承“专注·创新·持续·发展”的理念,凭借十多年专注于教育行业IT运维管理软件研发和实施方面的丰富经验,从众多竞争厂商中脱颖而出,成功与浙江大学签署网络运维平台建设协议。
用户需求
浙江大学是教育部直属、省部共建的普通高等学校,是首批进入国家“211工程”和“985工程”建设的若干所重点大学之一,是一所有着百年辉煌历史的名校。随着学校的发展,信息化建设逐步深入,取得了突出成绩,已从根本上改变了传统校园网络管理模式,建立了在计算机和通信网络基础上的电子校园网系统、管理信息系统和数据库服务系统等,形成了一个多功能开放的校园电子化体系。
随着网络技术和学校的发展,学校对网络的依赖性越来越高,一旦网络出现故障,将直接威胁到正常的教学教务和管理工作。同时由于各种设备和系统的操作监测方式都是不同的,各有各的特点,自成体系。IT管理和维护人员面对数十种甚至上百种网络资源和越来越复杂的业务系统,如何高效、快速的管理和使用好这样一个集多种网络设备、多种主机、多种操作系统、多种数据库及其他各类应用服务组成的业务系统;如何在这样一个大数据量、高实时、并发事务频繁、增长迅速、关联关系复杂的信息系统发生故障和性能瓶颈时快速定位故障;如何通过对系统运行历史的分析和统计找出困扰系统运行的潜在的深层次“慢性病”等,都是摆在网络管理员面前严峻的挑战。
经过泰信科技与浙江大学网络管理部门的深入交流与分析,用户需求逐渐明朗,总结如下:
·网络综合管理系统。缺乏对网络设备、服务器和各种应用服务的有效管理,无法及时了解全网、整个业务系统的运行状态。
·网络集中监控系统。缺乏对业务系统集中监控的手段,对校园网的维护主要靠维护人员手工登录设备进行监控。
·网络故障检测系统。监控方式不直观,排查实时费力,且有较高的专业要求,由于网络维护人力资源紧张,经常难以在规定的时间内找问题症结所在,造成业务终端时间过长。
·网络流量实时监控。用户数量众多,无法实时了解网络目前的应用状况,从而及时进行控制和调整,保障网络高效运行。
·事前告警系统。事后响应问题。现有的工作方式被动。有不少漏洞,只有到问题暴露之后,才能收到投诉,经常对工作效率造成影响。
不仅如此,校园IT管理的维护人力资源往往比较紧张,运维部门疲于应付各种突发事件,加班加点处理各种重复事件和故障,工作任务繁重,身心疲惫。由于没有科学有效的管理和监测手段,无法提前发现事故征兆,无法快速定位故障根源,无法准确的分析事件相关性,也就无法快速的解决问题,也无法避免同类问题的重复发生。由此引发了被服务对象(员工)不断抱怨和投诉“技术人员服务水平太低,总在解决问题,也总解决不了问题!”的恶性循环。
解决方案
◆部署方案
泰信科技在总结教育行业网络设计与实施经验的基础上,提出了以泰信科技Apex ITManager系列中NetManager与FlowManager两款产品为核心的整体网络管理解决方案,采用集中式部署,即在中心管理机房设置一台独立Apex网络运维管理服务器,将Oracle数据库部署在此网管服务器上。
图1:部署方案
中心Apex服务器可以通过校园网访问每个学校网络设备的SNMP服务,轮询收集设备性能和故障信息。网络管理员只需安装Aepx管理端软件远程登录Aepx中心服务器进行网络管理及监控即可。Apex管理端软件可以安装在现有的管理员工作站或笔记本上,便于远程管理维护。每台网络设备均不需要安装任何agent。
在Apex NetManager上分别为每个分校设立管理员账户,分配管理员权限,只允许管理员管理本校区的网络;管理中心管理员账号拥有全局设置权限,可以对全局进行管理和查看。
所有的告警信息都集中在Apex中心服务器上。通过系统进行告警的过滤、关联等动作之后,展现在管理员面前的是系统分析得出的最关键以及最详细的问题信息。网络管理员登陆管理界面查看问题详细情况之后,能够迅速确定问题根源,排除潜在危险。
◆动态发现全网拓扑
泰信科技NetManager拥有业界领先的物理拓扑结构自动发现、物理拓扑管理与分区域分层次展示功能,实施跨地域层次化的统一管理模式,责权管理更加明确,管理员能真正看清楚“黑匣子”内部的结构,及时反映当前网络性能、故障、运行等状况。而且,泰信科技拓扑图支持全屏展示、局部放大镜、延时拖动、鹰眼、拖动图标无极缩放、打印、导出图片等丰富的操作功能,因此恰好可以帮助浙江大学网管员完成这个基础却又十分重要的工作;
图2:网络拓扑
◆网络综合监控与管理
泰信科技NetManager可以随时对总流量、进/出流量、丢包速率、错包速率、进/出包速度、包转发速度、CPU、内存、设备响应时间等关键参数进行查看,真实展示设备机架以及连接状况,了解设备各个端口工作状态、告警情况、资源利用情况、链路链接信息等,再也不用经常跑到机房去看端口空置、链接关系,通过远程关闭/开启设备端口功能,再也不用楼上楼下跑来跑去拔线插线排除故障。
图3:性能监测
· 网管员可以根据学校进行手动划分,实现分层分区域展示和全图形化管理,现在可以迅速在分布式的网络中对故障进行区域定位;
◆实时流量监控
泰信科技FlowManager产品提供了针对整个网络全方位的网络流量实时报告和统计数据,通过深入分析网络流量的构成和路径,能够快速发现和识别网络异常流量,有效地监控各种网络流量的健康状况及网络性能,对违规使用网络的行为给予告警或者阻断,并能对网络优化、扩容提供有力的依据。浙江大学网管员通过Apex FlowManager流量分析,在物理拓扑图上能够便捷地查看流量信息,实时准确掌握每一条链路的流量大小,从而作出准确地流量管理策略。
图4:流量管理
◆告警系统与故障检测
泰信科技通过Quickview提供最新告警/事件、端口流量、网络设备响应时间、设备CPU、内存、全局故障告警统计等信息排名。网络高风险点往往就在其中,大大节省了网络管理员排查和定位故障的时间。在出现问题的时候,通过颜色、声音、短信、Email等不同方式的告警,并同时将故障源设备快速定位到拓扑图上,大大缩短了网管员故障排查时间;同时泰信科技NetManager可以进行告警级别设定,不同级别的问题告警由不同颜色标识,网管员可以根据低级别的告警做出事先判断,主动避免一些问题变成严重的故障,做到事前预防
图5:告警管理与故障检测
◆网络运维平台
泰信科技Apex NetManager系统运维平台提供运维流程、工单管理、资产管理、统一告警管理、知识管理、报表管理、服务质量管理等功能,使网管员的运维工作规范化、流程化和标准化。
图6:运维流程管理
用户评价
浙江大学的网络运维主管邹池佳老师在使用过Apex ITManager系列产品之后,感到Apex ITManager给日常运维工作带来了极大的便利,变被动式管理为主动管理,实现了量化管理,保证了网络运行质量。
发表评论
暂时没有评论,来抢沙发吧~