运维安全事件处理流程图(运行维护流程图)

来源网友投稿 987 2023-02-16

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈运维安全事件处理流程图,以及运行维护流程图对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享运维安全事件处理流程图的知识,其中也会对运行维护流程图进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

服务器遭受攻击后的处理流程

服务器遭受攻击后的处理流程

安全总是相对的运维安全事件处理流程图,再安全的服务器也有可能遭受到攻击。作为一个安全运维人员运维安全事件处理流程图,要把握的原则是:尽量做好系统安全防护,修复所有已知的危险行为,同时,在系统遭受攻击后能够迅速有效地处理攻击行为,最大限度地降低攻击对系统产生的影响。下面是我整理的服务器遭受攻击后的处理流程:

一、处理服务器遭受攻击的一般思路

系统遭受攻击并不可怕,可怕的是面对攻击束手无策,下面就详细介绍下在服务器遭受攻击后的一般处理思路。

1. 切断网络

所有的攻击都来自于网络,因此,在得知系统正遭受黑客的攻击后,首先要做的就是断开服务器的网络连接,这样除运维安全事件处理流程图了能切断攻击源之外,也能保护服务器所在网络的其运维安全事件处理流程图他主机。

2. 查找攻击源

可以通过分析系统日志或登录日志文件,查看可疑信息,同时也要查看系统都打开了哪些端口,运行哪些进程,并通过这些进程分析哪些是可疑的程序。这个过程要根据经验和综合判断能力进行追查和分析。下面的章节会详细介绍这个过程的处理思路。

3. 分析入侵原因和途径

既然系统遭到入侵,那么原因是多方面的,可能是系统漏洞,也可能是程序漏洞,一定要查清楚是哪个原因导致的,并且还要查清楚遭到攻击的途径,找到攻击源,因为只有知道了遭受攻击的原因和途径,才能删除攻击源同时进行漏洞的修复。

4. 备份用户数据

在服务器遭受攻击后,需要立刻备份服务器上的用户数据,同时也要查看这些数据中是否隐藏着攻击源。如果攻击源在用户数据中,一定要彻底删除,然后将用户数据备份到一个安全的地方。

5. 重新安装系统

永远不要认为自己能彻底清除攻击源,因为没有人能比黑客更了解攻击程序,在服务器遭到攻击后,最安全也最简单的方法就是重新安装系统,因为大部分攻击程序都会依附在系统文件或者内核中,所以重新安装系统才能彻底清除攻击源。

6. 修复程序或系统漏洞

在发现系统漏洞或者应用程序漏洞后,首先要做的就是修复系统漏洞或者更改程序bug,因为只有将程序的漏洞修复完毕才能正式在服务器上运行。

7. 恢复数据和连接网络

将备份的数据重新复制到新安装的服务器上,然后开启服务,最后将服务器开启网络连接,对外提供服务。

二、检查并锁定可疑用户

当发现服务器遭受攻击后,首先要切断网络连接,但是在有些情况下,比如无法马上切断网络连接时,就必须登录系统查看是否有可疑用户,如果有可疑用户登录了系统,那么需要马上将这个用户锁定,然后中断此用户的远程连接。

1. 登录系统查看可疑用户

通过root用户登录,然后执行“w”命令即可列出所有登录过系统的用户,如图1-11所示。

通过这个输出可以检查是否有可疑或者不熟悉的用户登录,同时还可以根据用户名以及用户登录的源地址和它们正在运行的进程来判断运维安全事件处理流程图他们是否为非法用户。

2. 锁定可疑用户

一旦发现可疑用户,就要马上将其锁定,例如上面执行“w”命令后发现nobody用户应该是个可疑用户(因为nobody默认情况下是没有登录权限的),于是首先锁定此用户,执行如下操作:

[root@server ~]# passwd -l nobody

锁定之后,有可能此用户还处于登录状态,于是还要将此用户踢下线,根据上面“w”命令的输出,即可获得此用户登录进行的pid值,操作如下:

[root@server ~]# ps -ef|grep @pts/3

531 6051 6049 0 19:23 ? 00:00:00 sshd: nobody@pts/3

[root@server ~]# kill -9 6051

这样就将可疑用户nobody从线上踢下去了。如果此用户再次试图登录它已经无法登录了。

3. 通过last命令查看用户登录事件

last命令记录着所有用户登录系统的日志,可以用来查找非授权用户的登录事件,而last命令的输出结果来源于/var/log/wtmp文件,稍有经验的入侵者都会删掉/var/log/wtmp以清除自己行踪,但是还是会露出蛛丝马迹在此文件中的。

三、查看系统日志

查看系统日志是查找攻击源最好的方法,可查的'系统日志有/var/log/messages、/var/log/secure等,这两个日志文件可以记录软件的运行状态以及远程用户的登录状态,还可以查看每个用户目录下的.bash_history文件,特别是/root目录下的.bash_history文件,这个文件中记录着用户执行的所有历史命令。

四、检查并关闭系统可疑进程

检查可疑进程的命令很多,例如ps、top等,但是有时候只知道进程的名称无法得知路径,此时可以通过如下命令查看:

首先通过pidof命令可以查找正在运行的进程PID,例如要查找sshd进程的PID,执行如下命令:

[root@server ~]# pidof sshd

13276 12942 4284

然后进入内存目录,查看对应PID目录下exe文件的信息:

[root@server ~]# ls -al /proc/13276/exe

lrwxrwxrwx 1 root root 0 Oct 4 22:09 /proc/13276/exe - /usr/sbin/sshd

这样就找到了进程对应的完整执行路径。如果还有查看文件的句柄,可以查看如下目录:

[root@server ~]# ls -al /proc/13276/fd

通过这种方式基本可以找到任何进程的完整执行信息,此外还有很多类似的命令可以帮助系统运维人员查找可疑进程。例如,可以通过指定端口或者tcp、udp协议找到进程PID,进而找到相关进程:

[root@server ~]# fuser -n tcp 111

111/tcp: 1579

[root@server ~]# fuser -n tcp 25

25/tcp: 2037

[root@server ~]# ps -ef|grep 2037

root 2037 1 0 Sep23 ? 00:00:05 /usr/libexec/postfix/master

postfix 2046 2037 0 Sep23 ? 00:00:01 qmgr -l -t fifo -u

postfix 9612 2037 0 20:34 ? 00:00:00 pickup -l -t fifo -u

root 14927 12944 0 21:11 pts/1 00:00:00 grep 2037

在有些时候,攻击者的程序隐藏很深,例如rootkits后门程序,在这种情况下ps、top、netstat等命令也可能已经被替换,如果再通过系统自身的命令去检查可疑进程就变得毫不可信,此时,就需要借助于第三方工具来检查系统可疑程序,例如前面介绍过的chkrootkit、RKHunter等工具,通过这些工具可以很方便的发现系统被替换或篡改的程序。

五、检查文件系统的完好性

检查文件属性是否发生变化是验证文件系统完好性最简单、最直接的方法,例如可以检查被入侵服务器上/bin/ls文件的大小是否与正常系统上此文件的大小相同,以验证文件是否被替换,但是这种方法比较低级。此时可以借助于Linux下rpm这个工具来完成验证,操作如下:

[root@server ~]# rpm -Va

....L... c /etc/pam.d/system-auth

S.5..... c /etc/security/limits.conf

S.5....T c /etc/sysctl.conf

S.5....T /etc/sgml/docbook-simple.cat

S.5....T c /etc/login.defs

S.5..... c /etc/openldap/ldap.conf

S.5....T c /etc/sudoers

..5....T c /usr/lib64/security/classpath.security

....L... c /etc/pam.d/system-auth

S.5..... c /etc/security/limits.conf

S.5..... c /etc/ldap.conf

S.5....T c /etc/ssh/sshd_config

对于输出中每个标记的含义介绍如下:

? S 表示文件长度发生了变化

? M 表示文件的访问权限或文件类型发生了变化

? 5 表示MD5校验和发生了变化

? D 表示设备节点的属性发生了变化

? L 表示文件的符号链接发生了变化

? U 表示文件/子目录/设备节点的owner发生了变化

? G 表示文件/子目录/设备节点的group发生了变化

? T 表示文件最后一次的修改时间发生了变化

如果在输出结果中有“M”标记出现,那么对应的文件可能已经遭到篡改或替换,此时可以通过卸载这个rpm包重新安装来清除受攻击的文件。

不过这个命令有个局限性,那就是只能检查通过rpm包方式安装的所有文件,对于通过非rpm包方式安装的文件就无能为力了。同时,如果rpm工具也遭到替换,就不能通过这个方法了,此时可以从正常的系统上复制一个rpm工具进行检测。

;

结合实际软件系统运维,简单谈谈如何提高系统安全

重点考虑如下几个方面的内容:  

1、安全资源的统一管理    

安全策略是企业安全建设的指导性纲领。信息安全管理产品应能在安全策略的指导下,对与信息安全密切相关的各种资产进行全面的管理,包括网络安全设备产品,重要的网络资源设备服务器或网络设备,以及操作系统和应用系统等。要实现关键防护设备的健壮性检查工作。

2、安全管理可视化    

实现安全运维管理服务流程的可视化、结果可跟踪、过程可管理,支持完善的拓扑表达方式,支持可视化的设备管理、策略管理和部署,支持安全事件在网络逻辑拓扑图中显示。信息安全全景关联可视化展示方法和技术,从信息展示逻辑和操作方式上提高可视化的视觉效果,增强系统的易用性和信息的直观性。

3、信息安全全景关联模型及方法    

各种类型、不同厂家的安全设备得以大规模使用,产生难以手工处理的海量安全信息,如何统一监控、处理这些不同类型的安全信息,如何从这些海量的安全信息中整理、分析出真正对用户有价值的安全事件。

通过设计一个基于关联的信息安全事件管理框架,实现安全信息的关联及关联后事件表示,实现安全信息精简、降低误报率和漏报率以及改进报警语义描述,达到增强安全系统间的联系、建立安全信息管理标准、提供安全可视化描述和建立安全通用处理流程。支持安全检测模式深度挖掘。


4、信息安全态势评估模型和态势评估方法  

安全综合评价以及安全态势预测的最终目的是建立大型网络的宏观、统一的安全态势评估体系,提供网络安全策略、进行宏观态势评估及预测的技术手段,达到全面评价系统整体安全性的目的,为实施网络安全管理策略制定提供决策支持的工具。  

5、海量数据存储和高性能处理机制  

建立基于网格技术的分布式存储和分布式处理机制,通过网格中间件既可以实现数据的分布式存储,又可以将统一的数据库查询请求变成在各网格节点进行的分布式查询,以提高数据库操作效率,从而通过计算规模扩展实现数据存储和处理性能的提升。

安全运维管理如何保障企业IT系统正常运转

在这种极度复杂的情况下运维安全事件处理流程图,需要的是一个单一的、集成的解决方案,使得企业能够收集、关联和管理来自异类源的大量安全事件,实时监控和做出响应,需要的是能够轻松适应环境增长和变化的解决方案,需要的就是企业完整的安全管理平台解决方案。
但同时也存在另一方面的难题,仅依赖于某些安全产品,不可能有效地保护自己的整体网络安全,信息安全作为一个整体,需要把安全过程中的有关各方如各层次的安全产品、分支机构、运营网络、客户等纳入一个紧密的统一安全管理平台中,才能有效地保障企业的网络安全和保护信息投资,信息安全管理水平的高低不是单一的安全产品的比较,也不是应用安全产品的多少和时间的比较,而是组织的整体的安全管理平台效率间的比较。 完整的IT运维管理系统中必须要包含安全运维管理,通过建立网络安全运维管理系统,将网络安全日常运维管理各业务功能整合在一个统一的平台进行管理。 企业外网的安全运维管理 企业通过Internet网提供Web网站、邮件、FTP、视频服务等应用,这是目前很多企业网络应用中都必须要解决安全方面的一个共同问题。 防火墙是长期以来保障网络安全最常用的工具,自然也是企业网络安全保护的一项重要措施。采用防火墙技术对于企业来说无疑是最佳的选择,防火墙设置在不同网络(如可信任的企业内部网和不可信的公共网)或网络安全域之间的一系列部件的组合。它可通过监测、限制、更改跨越防火墙的数据流,尽可能地对外部屏蔽网络内部的信息、结构和运行状况, 以此来实现网络的安全保护。在逻辑上,防火墙是一个分离器,一个限制器,也是一个分析器,有效地监控了内部网和Internet之间的任何活动,保证了内部网络的安全。防火墙总体上分为包过滤、应用级网关和代理服务器等几大类型。 对于Web网站安全来说,首先是Web服务器的安全,一般用来架构web网站的UNIX系统,Linux系统,Windows系统,总的来说UNIX系统的Web站点的安全性较好、其次是Linux系统、目前被黑客和病毒攻击最多的是Windows,因此在企业经济条件允许的条件下,架构在AIX、Solaris以及HP-UNIX等UNIX系统平台上web服务器的安全性是首选。当然无论选择何种操作系统,系统补丁都要及时安装,只是Web网站最基本的条件。其次是采用web服务器软件的安全如IIS、Apache、Tomcat的安全配置,采用ASP/ASP.NET、PHP和JSP动态技术开发网站程序的安全,后台数据库系统的安全也是保证网站安全的重要因素。 虚拟专用网(VPN)是通过一个公用网络(通常是因特网)建立一个临时的、安全的连接,是一条穿过混乱的公用网络的安全、稳定的隧道。虚拟专用网是对企业内部网的扩展。虚拟专用网可以帮助远程用户、公司分支机构、商业伙伴及供应商同公司的内部网建立可信的安全连接,并保证数据的安全传输。虚拟专用网可用于不断增长的移动用户的全球因特网接入,以实现安全连接;可用于实现企业网站之间安全通信的虚拟专用线路,用于经济有效地连接到商业伙伴和用户的安全外联网虚拟专用网。 通过“安全邮件网关”有效地从网络层到应用层保护邮件服务器不受各种形式的网络攻击,同时为邮件用户提供:屏蔽垃圾邮件、查杀电子邮件病毒(包括附件和压缩文件)和实现邮件内容过滤(包括各种附件中的内容)等功能。采用基于内容过滤、实现查杀病毒和防范垃圾邮件的产品,大大提高了防范的准确率,垃圾邮件过滤率最高可达98%。 上面是企业外网安全运维管理所采用的安全产品与策略,以及一些安全措施。主要是保证网络和业务应用的正常、安全与稳定的运行,但从实际操作运行来看,特别是从目前的蠕虫、病毒、木马、僵尸网络、垃圾邮件等比较猖獗的情况下,通过安全产品和安全策略能抵挡一些,但还是显得“力不从心”,得不到人们想像的“预期效果”。 企业内网的安全运维管理 这里的内网主要是指企业的内部局域网。随着企业ERP、OA、CRM等生产和办公系统的普及,单位的日程运转对内部信息网络的依赖程度越来越高,内网信息网络已经成了各个单位的生命线,对内网稳定性、可靠性和可控性提出高度的要求。内部信息网络由大量的终端、服务器和网络设备组成,形成了统一有机的整体,任何一个部分的安全漏洞或者问题,都可能引发整个网络的瘫痪,对内网各个具体部分尤其是数量巨大的终端可控性和可靠性提出前所未有的要求。 相对于内网安全概念,传统意义上的网络安全更加为人所熟知和理解,事实上,从本质来说,传统网络安全考虑的是防范外网对内网的攻击,即可以说是外网安全,包括传统的防火墙、入侵检察系统和VPN都是基于这种思路设计和考虑的。外网安全的威胁模型假设内部网络都是安全可信的,威胁都来自于外部网络,其途径主要通过内外网边界出口。所以,在外网安全的威胁模型假设下,只要将网络边界处的安全控制措施做好,就可以确保整个网络的安全。 而内网安全的威胁模型与外网安全模型相比,更加全面和细致,它即假设内网网络中的任何一个终端、用户和网络都是不安全和不可信的,威胁既可能来自外网,也可能来自内网的任何一个节点上。所以,在内网安全的威胁模型下,需要对内部网络中所有组成节点和参与者的细致管理,实现一个可管理、可控制和可信任的内网。由此可见,相比于外网安全,内网安全具有:要求建立一种更加全面、客观和严格的信任体系和安全体系;要求建立更加细粒度的安全控制措施,对计算机终端、服务器、网络和使用者都进行更加具有针对性的管理等特点。 外网安全主要防范外部入侵或者外部非法流量访问,技术上也以防火墙、入侵检测等防御角度出发的技术为主。内网在安全管理上比外网要细得多,同时技术上内网安全通常采用的是加固技术,比如设置访问控制、身份管理等。当然造成内网不安全的因素很多,但归结起来不外乎两个方面:管理和技术。 由于内网的信息传输采用广播技术,数据包在广播域中很容易受到监听和截获,因此需要使用可管理的安全交换机,利用网络分段及VLAN的方法从物理上或逻辑上隔离网络资源,以加强内网的安全性。从终端用户的程序到服务器应用服务、以及网络安全的很多技术,都是运行在操作系统上的,因此,保证操作系统的安全是整个安全系统的根本。除了不断增加安全补丁之外,还需要建立一套对系统的监控系统,并建立和实施有效的用户口令和访问控制等制度。为了维护企业内网的安全,必须对重要资料进行备份,对数据的保护来说,选择功能完善、使用灵活的备份软件是必不可少的。目前应用中的备份软件是比较多的,配合各种灾难恢复软件,可以较为全面地保护数据的安全。 在内网考虑防病毒时,防杀毒方式需要全面地与互联网结合,不仅有传统的手动查杀与文件监控,还必须对网络层、邮件客户端进行实时监控,防止病毒入侵;防病毒软件应有完善的在线升级服务,使用户随时拥有最新的防病毒能力;对病毒经常攻击的应用程序提供重点保护。由于内部局域网一般都是通过防火墙实现与互联网的逻辑隔离,因此通过对防火墙的NAT地址转换,终端PC机的IP/MAC地址绑定以及安全策略的实现内网安全。局域网内的PC机操作系统、应用软件以及防病毒、软件的补丁与升级、正版软件的使用等也是影响内网安全的重要方面。 采用上网行为管理系统软件,实现网站访问限制、网页内容过滤、即时通工具过滤、IP地址绑定、IP访问控制等功能,为内网的用户实现了高度智能化的上网行为管理,全面保障企业关键应用的正常运行。应该以动态的方式积极主动应用来自内网安全的挑战,建立健全的内网安全管理制度及措施是保障内网安全必不可少的措施。 因此,企业内网的安全运维管理需要一个整体一致的内网安全体系,包括身份认证、授权管理、数据保密和监控审计等方面,并且,这些方面应该是紧密结合、相互联动的统一平台,才能达到构建可信、可控和可管理的安全内网的效果。企业用户内网安全管理制度、整体一致的内网安全解决方案和体系建设将成为内网安全的主要发展趋势。 企业网管系统中是否需要安全运维管理 随着企业网络应用和规模的不断增加,网络管理工作越来越繁重,网络故障也频频出现:不了解网络运行状况,系统出现瓶颈;当系统出现故障后,不能及时发现、诊断;网络设备众多,配置管理非常复杂;网络安全受到威胁,现在企业可能会考虑购买网管软件来加强网络管理,以优化现有网络性能,网管软件系统已经变成企业不可缺少的一项功能。 目前网管系统开发商针对不同的管理内容开发相应的管理软件,形成了多个网络管理方面。目前主要的几个发展方面有:网管系统(NMS)、应用性能管理(APM)、应用性能管理、桌面管理(DMI)、员工行为管理(EAM)、安全管理。当然传统网络管理模型中的资产管理,故障管理仍然是热门的管理课题。越来越多的业务将进入网络管理的监控范围,对于业务的监控的细分化,都将成为今后的网络管理系统完善的重点。 安全运维管理在企业IT 系统中的应用 1、安全管理平台及其应用 企业的网络存在着各种风险,如何保证网络安全有序运行成为用户最为关心的问题。当企业的网络工程师面对大量的网络数据时,运维安全事件处理流程图他需要的明确的思路、清晰的条理、实际可操作的依据,征对以上这些困惑,Broada安全管理平台(简称Broada SOC)集中对安全威胁进行检测和响应,使网络工程师能获取最新的安全信息,通过强大的实时故障处理、安全威胁响功能,进而查看企业IT系统的安全状况视图,从而整理出切实有企业有用的数据信息,提高安全管理效率,降低总成本并提高投资回报率。 下图是Broada S0C系统功能架构图,通过对防火墙、IDS等设备数据信息采集,能实时收集信息,然后通过事件处理中心,运行其独特的数据挖掘和关联技术能力,迅速识别出关键事件,自动做出响应,最大化地减少攻击对网络产生影响;同时强大的知识库也可以集成各种故障处理事件,网络工程师依据知识库所提供的帮助就能解决大部分的网络故障问题,有效减少了宕机时间,确保了运行效率,在此基础上能提供企业安全趋势分析,使网络工程帅能轻松了解各种风险并采取明知决策。 2、桌面安全管理及其应用 目前网络的另一大难题就是,企业网络规模的日益扩大,单纯手工操作已无法满足系统的需要,企业所需要的是能统一对内网所有PC机、服务器进行操作管理的IT运维平台,于是桌面终端安全管理系统的诞生就显得相当必要了,它主要实现两大功能:省去网络工程师大部分手工操作的时间,提高IT服务部门的工作效率;对员工的行为操作做审计规范,从网络参与者方面保障了网络安全。 下图是Broadaview广通桌面安全管理软件的功能示意图,可以看到目前企业所亟需用到的网络管理功能都一应俱全。软件分发、补丁管理、远程维护等功能非常方便网络工程师对整个企业网进行更新维护,同时可以通过事件报警器及时发现故障,帮助员工解决软硬件难题;桌面安全评估、非法外连监控、IT资产管理则能从安全性上保障企业网的良好运行,能有效防止企业机密外泄、IT资产流失、非法外连导致内网中病毒等情况的出现。 3、安全应用案例 杭州市民卡项目总投资1.2亿,是“数字杭州”的重点工程之一;旨在建立高效、便捷的公共服务体系。该系统分为两大部分:一是市民基础信息交换平台和基础信息资源的建设、管理与维护、市民卡的发行和日常管理、市民卡服务网点的管理等工作;二是市民卡的各种应用,如,以社会保障为代表的政府应用;以电子钱包为代表的电子支付应用;以城市交通为代表的公用事业应用等。 整个市民卡项目系统的主要由数据中心、交换平台和服务网络三部分组成。数据中心部分环境已有设备包括小型机、台式PC服务器、磁带库等,此外还包括数据库管理系统、中间件、备份管理系统等几部分数据系统。交换平台部分环境主要由消息中间件、部门交换前置机和遍布全市的服务网点系统组成。交换网络链路为租用的网通VPN网络。 为了保障整个系统正常、高效和稳定地运行,杭州市信息化办公室在充分调研了目前市场上可选的网管系统产品的基础上,通过公开招投标方式严格甄选,从稳定性、易用性、灵活性等方面进行了细致的考察,并从研发能力、核心技术、技术支持等方面进行了评估,最终决定采用广通信达公司的Broadview网络监控平台软件产品作为“杭州市民卡系统及网络管理系统”的主要支撑系统。 Broadview软件系统部署在一台PC服务器上,为杭州市民卡项目提供了一站式全方位的IT管理解决方案。 Broadview网络监控平台可以实时监控网络状况,掌控PC机服务器的性能数据,并深入到应用层对数据库、Web服务、Email服务监测,查看其运行健康度;强大的拓扑功能,能很快发现全网设备,让网络工程师直观明确全网的运行支撑资源,然后展现成网络拓扑图,并能单独提供每一设备的详细资料及运行情况,方便监控重要设备的运转;网络工程师还需要做的一件事情就是向信息中心领导汇报IT投资情况,在Broadview网络监控平台的帮助下,哪台设备出现故障,现用资金用于何种设备都能一一明确,可以说完全能给网络工程师提供IT投资依据,从而在硬件上保障整个杭州市民卡系统的良好运转。 广通信达Broadview平台采用面向运维服务的层次化系统架构,结构清晰,可扩展性强。系统具备全面的网络监测和健全的业务管理功能,内置多种监测器,支持主流操作系统的服务器、多厂家的各种网络设备、存储系统等。同时Broadview系统采用高度模块化设计,提供开放的API接口和高效的二次开发服务,方便地满足了市民卡各种个性化需求。 杭州市民卡网管工程运行以来,网络管理人员通过Broadview网络、业务拓扑图就可以实时监测市民卡网络运行状况、业务服务质量,并可通过Email、手机短信等多种方式及时接收报警,通过运维平台协同处理告警,大大缩短了发现和解决故障的时间,有效保障了网络的持续、稳定、高效运行,同时也大大降低了市民卡IT系统管理的运维成本。 三分技术,七分管理 总而言之,对于企业安全运维管理来说,三分技术,七分管理,在企业内部建立一套完善的安全管理规章制度,使管理机构依据相应的管理制度和管理流程对日常操作、运行维护、审计监督、文档管理等进行统一管理,同时加强对工作人员的安全知识和安全操作培训,建立统一的安全管理体系,帮助企业识别、管理和减少信息通常所面临的各种威胁,架构企业的安全保障体系。

如何做好运维监控?

统一监控平台,说到底本质上也是一个监控系统,监控的基本能力是必不可少的,回归到监控的本质,先梳理下整个监控体系:

① 监控系统的本质是通过发现故障、解决故障、预防故障来为了保障业务的稳定。

② 监控体系一般来说包括数据采集、数据检测、告警管理、故障管理、视图管理和监控管理6大模块。而数据采集、数据检测和告警处理是监控的最小闭环,但如果想要真正把监控系统做好,那故障管理闭环、视图管理、监控管理的模块也缺一不可。

一、数据采集

1、采集方式

数据采集方式一般分为Agent模式和非Agent模式;

Agent模式包括插件采集、脚本采集、日志采集、进程采集、APM探针等

非Agent模式包括通用协议采集、Web拨测、API接口等

2、数据类型


监控的数据类型有指标、日志、跟踪数据三种类型。

指标数据是数值型的监控项,主要是通过维度来做标识。

日志数据是字符型的数据,主要是从中找一些关键字信息来做监控。

跟踪型数据反馈的是跟踪链路一个数据流转的过程,观察过程中的耗时性能是否正常。

3、采集频率

采集频率分秒级、分钟级、随机三种类型。常用的采集频率为分钟级。

4、采集传输

采集传输可按传输发起分类,也可按传输链路分类。

按传输发起分类有主动采集Pull(拉)、被动接收Push(推)

按传输链路分类有直连模式、Proxy传输。

其中Proxy传输不仅能解决监控数据跨网传输的问题,还可以缓解监控节点数量过多导致出现的数据传输的瓶颈,用Proxy实现数据分流。

5、数据存储

对于监控系统来说,主要有以下三种存储供选择

① 关系型数据库

例如MySQL、MSSQL、DB2;典型监控系统代表:Zabbix、SCOM、Tivoli;

由于数据库本身的限制,很难搞定海量监控的场景,有性能瓶颈,只在传统监控系统常用

② 时序数据库

为监控这种场景设计的数据库,擅长于指标数据存储和计算;例如InfluxDB、OpenTSDB(基于Hbase)、Prometheus等;典型监控系统代表:TICK监控框架、 Open-falcon、Prometheus

③ 全文检索数据库

这类型数据库主要用于日志型存储,对数据检索非常友好,例如Elasticsearch。

二、数据检测

1. 数据加工

① 数据清洗

数据清洗比如日志数据的清洗,因为日志数据是非结构化的数据,信息密度较低,因此需要从中提取有用的数据。

② 数据计算

很多原始性能数据不能直接用来判断数据是否产生异常。比如采集的数据是磁盘总量和磁盘使用量,如果要检测磁盘使用率,就需要对现有指标进行一个简单的四则运算,才能得到磁盘使用率。

③ 数据丰富

数据丰富就是给数据打上一些tags标签,比如打上主机、机房的标签,方便进行聚合计算。

④ 指标派生

指标派生指的是通过已有的指标,通过计算得出新的指标。

2. 检测算法

有固定规则和机器学习算法。固定算法是较为常见的算法,静态阈值、同比环比、自定义规则,而机器学习主要有动态基线、毛刺检测、指标预测、多指标关联检测等算法。

无论是固定规则还是机器学习,都会有相应的判断规则,即常见的< =和and/or的组合判断等。

三、告警管理

1. 告警丰富

告警丰富是为了后续告警事件分析做准备,需要辅助信息去判断该怎么处理、分析和通知。

告警丰富一般是通过规则,联动CMDB、知识库、作业历史记录等数据源,实现告警字段、关联信息的丰富;通过人工打Tags也是一种丰富方式,不过实际场景下由于人工成本高导致难以落地。

2. 告警收敛

告警收敛有三种思路:抑制、屏蔽和聚合

① 抑制

即抑制同样的问题,避免重复告警。常见的抑制方案有防抖抑制、依赖抑制、时间抑制、组合条件抑制、高可用抑制等。

② 屏蔽

屏蔽可预知的情况,比如变更维护期、固定的周期任务这些已经知道会发生的事件,心里已经有预期。

③ 聚合

聚合是把类似或相同的告警进行合并,因为可能反馈的是同一个现象。比如业务访问量升高,那承载业务的主机的CPU、内存、磁盘IO、网络IO等各项性能都会飙升,这样把这些性能指标都聚合到一块,更加便于告警的分析处理。

3. 告警通知

① 通知到人

通过一些常规的通知渠道,能够触达到人。

这样在没有人盯屏的时候,可以通过微信、短信、邮件触发到工作人员。

② 通知到系统

一般通过API推送给第三方系统,便于进行后续的事件处理

另外还需要支持自定义渠道扩展(比如企业里有自己的IM系统,可以自行接入)

四、故障管理

告警事件必须要处理有闭环,否则监控是没有意义的。

最常见还是人工处理:值班、工单、故障升级等。

经验积累可以把人工处理的故障积累到知识库里面,用于后续故障处理的参考。

自动处理,通过提取一些特定告警的固化的处理流程,实现特定场景的故障自愈;比如磁盘空间告警时把一些无用日志清掉。

智能分析主要是通过故障的关联分析、定位、预测等AI算法,进一步提升故障定位和处理的效率;

1. 视图管理

视图管理也属于增值性功能,主要是满足人的心理述求,做到心中有底,面向的角色很多(领导、管理员、值班员等)。

大屏:面向领导,提供全局概览

拓扑:面向运维人员,提供告警关联关系和影响面视图

仪表盘:面向运维人员,提供自定义的关注指标的视图

报表:面向运维人员、领导,提供一些统计汇总报表信息,例如周报、日报等

检索:面向运维人员,用于故障分析场景下的各类数据检索

2. 监控管理

监控管理是企业监控落地过程中的最大挑战。前5个模块都是监控系统对外提供的服务功能,而监控管理才是面向监控系统自身的管理和控制,关注真正落地的过程的功能呈现。主要有以下几个方面:

配置:简单、批量、自动

覆盖率:监控水平的衡量指标

指标库:监控指标的规范

移动端:随时随地处理问题

权限:使用控制

审计:管理合规

API:运维数据最大的来源,用于数据消费

自监控:自身稳定的保障

为了实现上述监控六大基础能力模块,我们可以按如下架构设计我们的统一监控平台。

主要分三层,接入层,能力层,功能层。

接入层主要考虑各种数据的接入,除了本身Agent和插件的采集接入,还需要支持第三方监控源的数据接入,才能算一个完整的统一监控平台。

能力层主要考虑监控的基础通用能力,包含数据采集模块、数据存储模块、数据加工模块、数据检测模块、AI分析模块。

功能层需要贴近用户使用场景,主要有管理、展示两类功能,在建设的过程中可以不断丰富功能场景。

另外,考虑到数据的关联关系,为未来的数据分析打下基础,监控和CMDB也需要紧密联动,所有的监控对象都应该用CMDB进行管理,另外,还可以配置驱动监控为指导理念,实现监控的自动上下线,告警通知自动识别负责人等场景,简化监控的维护管理。

为了统一监控平台能够在企业更好的落地,我们需要配备对应的管理体系,其中最重要的是指标管理体系。

指标管理体系的核心理念:

监控的指标体系是以CMDB为骨架,以监控指标为经脉,将整个统一监控平台的数据有机整合起来。

贯穿指标的生命周期管理,辅以指标的管理规范,保障监控平台长久有序的运行。

从企业业务应用的视角出发,一般将企业监控的对象分为6层,也可以根据企业自己的情况进行调整:

基础设施层

硬件设备层

操作系统层

组件服务层

应用性能层

业务运营层

关于运维安全事件处理流程图和运行维护流程图的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 运维安全事件处理流程图的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于运行维护流程图、运维安全事件处理流程图的信息别忘了在本站进行查找喔。
上一篇:服务器的性能测试(服务器性能测试报告)
下一篇:运维安全事件处理流程(安全事件处置流程)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~