睿象云智能告警平台的分派策略
1243
2023-02-13
本文目录一览:
运维日志
长久以来,日志管理都是IT运维工程师不可回避运维软件事件记录的工作,它不但可以跟踪IT基础设施活动,更是回答故障是否发生、如何发生、何时发生、在何处发生的最佳答案。
如果把运维看做是医生给病人看病,则日志就是病人对自己的陈述,很多时候医生需要通过对病人的描述中得出病人状况,是否严重,需要什么计量的药,什么类型的药。所以古人有句话叫对症下药,这个症就是病人的描述加医生的判断,在重一点的病在加上很多的化验。在医生看病时病人的描述和化验单上的数据对医生是非常重要的。同理日志在运维中的作用也是类似的,但非常不幸,日志在很多运维中被严重低估,直到磁盘空间不足的时候才想到,这有个大的日志文件把他删运维软件事件记录了,这样可以节省空间。
下面我们来看一下常用的监控系统,界面做的很漂亮,功能也很多,但是有个疑问就是运维软件事件记录你会天天盯着这个界面看吗?我感觉绝大多数人不会,很多人关注的是异常点,就是当系统有问题的时候,你告诉我哪里有问题,然后我在根据问题去分析,去处理,当然做处理的时候,这个系统就会用上了。
那上面这些内容和日志有什么关系呢?
日志本身是没有价值的,只有对日志进行分析加以利用的.时候才会有价值,日志中包含非常多的有用的信息,不光包括运维层面,还包括业务层面,安全层面。很多时候运维需要的是一个统一告警平台,但告警的依据绝大多少是对日志等进行自动化的分析得出的结论,所以说日志是很重要的。
什么是日志
简单地说,日志就是计算机系统、设备、软件等在某种情况下记录的信息。具体的内容取决于日志的来源。例如,Unix操作系统会记录用户登录和注销的消息,防火墙将记录ACL通过和拒绝的消息,磁盘存储系统在故障发生或者在某些系统认为将会发生故障的情况下生成日志信息。日志中有大量信息,这些信息告诉你为什么需要生成日志,系统已经发生了什么。例如,Web服务器一般会在有人访问Web页面请求资源(图片、文件等等)的时候记录日志。如果用户访问的页面需要通过认证,日志消息将会包含用户名。这就是日志数据的一个例子:可以使用用户名来判断谁访问过一个资源。通过日志,IT管理人员可以了解系统的运行状况,安全状况,甚至是运营的状况。
日志能做什么
在一个完整的信息系统里面,日志系统是一个非常重要的功能组成部分。它可以记录下系统所产生的所有行为,并按照某种规范表达出来。我们可以使用日志系统所记录的信息为系统进行排错,优化系统的性能,或者根据这些信息调整系统的行为。在安全领域,日志可以反应出很多的安全攻击行为,比如登录错误,异常访问等。日志还能告诉你很多关于网络中所发生事件的信息,包括性能信息、故障检测和入侵检测。日志会成为在事故发生后查明“发生了什么”的一个很好的“取证”信息来源。日志可以为审计进行审计跟踪。
从一条日志说起
111.88.155.166 - - [17/Dec/2015:13:06:05 +0800] "POST /login HTTP/1.1" 302 0 "http://secilog.abc.com/login?langType=zh" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36"
这是一条很普通的nginx中记录的日志,日志的详细内容可查阅相关文档。这里简单说明一下主要的内容。从日志中可以得到访问者的IP,访问的时间,时区,请求的方式,请求页面,返回状态,来源等等信息。仔细一看请求的页面/login就可以猜到只是一个登录请求页面。这条日志的重要含义是登录成功。
从这条日志怎么和我们关注的指标对应的,我们下面接着分析。
活跃用户数,活跃用户说一般是指同一天有多少老用户登录过系统。这个时候就会发现,刚才的登录日志中如果放到一天的统计中就可以知道,一天内有多少次成功等登录的次数了,但细心的用户可以发现,不准确,因为用户可以重复登陆,这就会造成重复,说的很对,那我们在细化一下,我们换个角度分析,一天内登录成功的不重复ip的数量。是不是更接近真实的结果呢,我感觉从量级和趋势上已经能说明问题了。
刷单用户这个没有标准的说法,我的理解是是同一个人为了某种目的大量注册了很多账号后,然后进行某种操作比如刷单等。这种行为很难100%杜绝,但从这条日志中可以得出一些有意思的发现。如果同一个ip一天登录成功次数过多,比如一天登录了一百次,每次间隔的时间都差不多,说明这个人有刷单嫌疑,可以先找出来然后再进一步的分析。
新增用户数的含义是一天内有多少注册成功的用户,这个时候可以类比登录日志,只要把登录日志的url换成注册日志的url就可以发现一天新增的用户数是多少。
同理恶意注册用户数也是类似的,一天同一个ip下注册成功的次数非常多。此ip恶意注册的可能性就很大。当然还需要进一步的分析,比如ip是否是一个大楼里面的出口ip,注册后此用户做了什么来判断。
从上面的分析可以看出举一反三,可从日志中可以看出运营中的很多内容,比如浏览商品的排行,用户访问时间,用户来源等等。
下面我们还从这条日志中分析一下安全的行为:
111.88.155.166 - - [17/Dec/2015:13:06:05 +0800] "POST /login HTTP/1.1" 200 0 "http://secilog.abc.com/login?langType=zh" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36"
这还是一条登录日志,唯一和上面登录日志不一样的地方是服务器返回值。一个是302,一个是200.有什么区别的,302的意思是服务器进行过页面跳转,200还是返回此页面,从中就可以理解,这是一条登录失败的记录。很好,有这条记录就可以发现很多的安全行为。
恶意密码猜测,可以理解同一段时间,用户大量的登录失败,返回了很多登录失败记录。从这条定义中就可以发现规律,我们把时间放大到5分钟,当5分钟内,同一个ip有超过20次以上的登录失败行为,基本上可以断定在进行密码猜测。当密码猜测有自动的也有手动的,如果区分呢。我们看一下这个内容"http://secilog.abc.com/login?langType=zh",这个含义是post提交的来源是"http://secilog.abc.com/login?langType=zh"这个网页,也就是从这个网页发起的。如果这个地址不对,极有可能是用工具来进行暴力破解。
同理cc攻击就更容易理解了,同一个ip在很短的时间内访问了大量的请求,基本上可以认为是cc攻击。其他的webshell,sql注入等也可以从日志中分析出部分来,但不是太准确,因为日志中指记录get请求的参数,post参数正常是不记录的。
从上面的分析中可以得知,日志中还是有很多宝贵的东西在里面,只是我们没有发现。
;IT服务管理软件运维软件事件记录,帮助企业建立以服务台和事件为驱动、统一的IT服务管理平台运维软件事件记录,实现规范的服务流程(如问题、变更、配置等流程)运维软件事件记录,从根本上提高了IT服务运维效率,用最低的成本交付高质量的IT服务。
LANDESK Service Desk IT服务管理软件的应用价值
LANDESK Service Desk运维软件事件记录:LANDESK Service Desk流程驱动IT服务管理软件解决方案。让企业更好的控制服务交付。
功能优势
LANDESK Service Desk是一款流程驱动的IT服务管理(ITSM)软件解决方案,可以部署为预置式、云式或混合式。提供了使用者期望从市场领先解决方案中所能获得的全部核心ITSM功能,包括经ITIL®验证的事件、请求、自助服务、控制、知识管理以及多级报告。
LANDESK Service Desk提供功能丰富的端到端服务管理平台,支持核心服务管理任务,同时可实现企业IT组织从基本解决方案管理到成熟服务组合管理、能力和可用性优化以及持续服务改进的高级业务目标。LANDESK Service Deskc能与使用者的系统和网络管理环境无缝集成,包括所有用于系统生命周期管理和端点安全性的LANDESK®解决方案。
该解决方案功能开箱即用,又易于配置,无需编码就可以满足特定的需求。企业使用其能够快速从反应状态转换到一种更可控、更主动并且面向服务的状态。可提高企业服务台员工和用户的工作效率,同时可缩短系统的恢复时间,能降低停机费用和服务相关的行业风险。
易于使用 轻松拥有
LANDESK Service Desk使IT部门能够与其技术基础架构以及用户社区进行有效地交互。其流程自动化和策略执行功能简化了最佳实践应用过程。通过深度集成,提供带有基本业务环境的可操作智能,可支持快速准确的决策制定及持续的服务改进。
无代码配置
特殊设计,无代码、拖放配置就能进行修改,设计界面简单直观,数据修改和创建、布局和工作流程更简单。
规范且可控
工作流程清晰明确,使用时更高效,用户体验更佳
服务部署
服务交付控制不当,可能对企业服务台成本和生产效率造成严重影响。使用LANDESK Service Desk可在服务管理的整个生命周期中进行掌控。通过从部署到终止的整个过程中应用标准的验证和授权流程,有效的确保交付那些能提供价值并与企业战略目标一致的服务。
稳定可靠 适用广
LANDESK Service Desk设计用于跨多个时区和语言环境开展运营的分布式组织。不受IT环境的范围或性质限制。
基于流程的方法
定义并记录使用者的IT支持流程,包括是哪一流程,做什么,何时做,确保每个人都以相同的方式朝着相同的目标努力。
LANDESK Service Desk通过功能强大的流程引擎赋予使用者执行能力,可构建、自动化及修改任意复杂度的服务管理流程。LANDESK服务台附带丰富的预定义流程库,及简化新流程设计的模板。
服务台流程引擎是促进与推动服务交付和质量保证各个方面的强劲动力核心。在每个阶段,根据用户的角色和职责,企业可以看到不同的视图和提示。
使用服务台解决事件、更改系统配置、满足服务请求或部署新的员工,都能确保遵循IT支持流程而不出现偏差。要完成任务就无法避开任何流程,使用LANDESK Service Desk企业可以很简单的满足法规或安全方面的合规性要求。此外,通过针对每位用户对流程和窗口进行本地化,解决方案还支持跨国境的运营。
嵌入ITIL最佳实践支持
LANDESK Service Desk使ITIL最佳实践融入企业IT组织工作流程,构成ITIL V3的全部15个流程已经通过Pink Elephant的软件认证,可轻松展示出企业的良好IT治理状态。
服务级别合规性
利用服务台,可以轻松监控事件、请求、问题、变量或服务流程如何按照SLA执行。在任意任务中,服务台会根据输入的数据为分析人员自动预先选择相应的响应级别,因此系统会采取相应的升级操作。若快要违反SLA,服务台将提升优先级、重新分配活动或通知服务台。保障用户的利益。
将服务管理扩展到核心IT之外
在核心服务管理之外,还有其他服务(如运维软件事件记录:项目管理和组合管理)。使用者可通过创建核心项目生命周期流程,使用其来管理单个项目或项目组合的全部内容——从里程碑阶段和任务工作流程直至风险、时间和成本管理。
管理变更
IT基础架构变更负责人可通过LANDESK Service Desk管理整个变更流程,并降低由于变更失败、不完全或误导而造成的生产中断风险。
LANDESK服务台变更控制功能与事件和问题管理紧密集成,企业可轻松追踪变更原因,促进对变更和发布的高效管理,节省变更和发布管理所需时间。
运维管理分为很多个方向,比如主机监控、ITSM流程管理、devops敏捷开发、APM应用性能管理,等等,太多的方向。
通常用得较多的,应该是 主机监控和ITSM流程管理系统。主机监控,像北塔、PIGOSS,都是很成熟的产品。
ITSM流程管理系统,可以了解一下 Servicehot ITSM系统,提供了SaaS、onpermise Saas(项目租用)、onpermise(项目)多种合作模式,功能全面,个性化程度高,适合各行业的运维部门使用!
发表评论
评论列表