运维常见事件(运维常见故障)

来源网友投稿 1393 2023-02-16

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈运维常见事件,以及运维常见故障对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享运维常见事件的知识,其中也会对运维常见故障进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

IT运维管理当前面临了哪些问题?

现在的企业几乎都是互联网办公,网络一旦出现问题,会对公司业务造成重大损失。而很多公司主业也不是IT,对网络问题不大懂,对于公司的网络问题往往都是请一个运维工程师处理。这些工程师有相应的专业能力,但管理人员的“不懂行”却让运维工作存在很多问题,主要有这五点:
1、缺乏有效的知识积累和共享,造成操作维护效率低下,类似的故障和问题仍然在不断发生,不断解决着,同时一旦某些掌握关键信息和技能的人发生意外状况(如生病,离职等),整个日常维护可能面临严峻的考验。
2、工程师的维护职责不是很清楚,每个人都大概知道自己该做什么,但是某个具体事情到底该谁负责,却没有明细定位。
3、IT网络运维人员大多没有养成记录习惯,每个月汇总报告时,对自己的工作量、所维护系统的整体情况还是一头雾水。而且纸质的故障处理报告信息要素不全,统计和查询都是头痛的问题。
4、运维人员几乎很少能准时下班,处理突发技术故障的事情也时有发生。运维人员往往像“救火队员”一样去处理故障。 在“救火式”的IT管理维护模式下,很难有效地进行服务管理,无法保证IT服务的有效性和一致性,IT管理往往处于无序状态。
5、对于运维工程师的工作绩效缺乏客观考核依据。他们到底做了哪些事情?哪些事情还没有做?工作完成的时效性怎么样?解决问题的质量怎么样?这些问题,只能凭印象得出一个个模糊的答案。
如何解决以上问题?
如何解决以上提到的问题是目前许多企业用户需要解决的问题,但首要关注的问题应是如何建立专业化分工的IT运维体系。
1、细化用户角色,力求提高运维效率
运维人力分工管理包含人员、岗位、角色等信息,如果这些信息没有统一规划,就无法进行统一配置。网络管理中的角色是根据ITIL标准进行划分的,是把IT运维各种事情(包括人员、资源、突发事故)分成不同级别和不同运维操作,以便有效的配置运维人力资源。因此,对于企业而言,IT运维的专业化分工本质上是对IT运维人力资源配置的优化。例如,明确运维事件分级处理流程,明确运维人员的职责、权限、义务和绩效考核标准。事实上许多实践也证明,明确每种运维事件的专业化分工处理流程,可以大大减少IT运维操作的随意性和混乱性,并能大大提高运维中的人力资源效率。
2、设立IT运维服务台,规范IT流程
在网管软件中,一般提供自助服务和运维服务台,自助服务台的作用是,给用户报故障,评价IT人员解决问题是否负责等。运维服务台是为了确定运维等级和引入优先处理原则。运维服务台主要承担:运行值班、故障监控、接受请求、工单派发及问题解决过程中的监测等工作内容。服务台就像是传统产业生产车间的调度分配员,它会不断的根据事件的等级进行匹配分工和调度。例如发生任何一个突发运维事件时,服务台会先检查并进行分类流转处理。运维人员可分为一线普通维护、二线技术专家和三线厂商专家。一线人员作为第一级问题处理人员,主要解决常规的运维问题;在一线人员不能解决的情况下,二线技术专家将迅速介入问题解决过程;三线技术专家来自产品供应商,由二线技术专家申请三线厂商专家的介入,使问题解决时间能够大大缩短。
3、FAQ和知识库,最大限度节省人力成本
提供FAQ和知识库两种方式,知识库是指对网络运维中的典型故障事件和常见问题解答的自助式处理流程。当出现故障时,用户先在自助式知识库寻找解决方法。如果问题没有得到解决,则用户利用服务台申请维护,用户申请将会移交给相应的负责人,负责人第一时间建立服务档案并一直实时监控,直到问题得到圆满的解决。因此,自助式知识库能帮助运维人员节省大量的时间,从而节省人力成本支出。
最后,专业的事情要用专门的人员来做,还要配合专业的方法。运维工程师是以技术为主的群体,他们往往关注于IT问题本身,主要通过提升自身技术实力来解决问题,不太关注技术之外的事情。这种情况下不可避免的会出现一些问题,这就需要管理人员来解决了。

数据自动化运维应该注意哪些事项

一、基础数据概况

CMDB中文是配置管理数据库,存储与管理企业IT架构中设备的各种配置信息,与未来的IT运维管理标准化和流程化紧密关联,并且支持流程的运转。运维管理平台创建初期或初版中的CMDB更多是偏向IT资产管理,我们在这里定义的IT资产管理,暂时抛除公司个人使用的普通PC机。

日志主要存储CMDB中涉及到服务器或是其它设备的日志信息。

DB主要是所有IT系统的数据库信息,包括运维管理系统本身的数据库。由于数据库的重要性,所以在基础数据中单独一个模块管理数据库,包括生产数据库、测试数据库、开发数据库。数据库的日志放在日志模块进行统一管理,监控和备份。

知识库主要存储日常运维管理中发生的事件、问题以及一些经典问题的解决和常用的解决方案,主要起到运维管理辅助的功能。

二、基础数据三要素

基础数据要求完整、准确、实时,这三个特性缺一不可。

1.完整性

完整性,要求在数据采集整理阶段,要一一梳理,不能有遗漏。任何一个设备的疏漏都将会导致未来出现问题。例如最近的勒索病毒在防范上需要给服务器升级打补丁,这个时候就是根据服务器清单一一对照,升级。如果有遗漏落下的服务器未及时打补丁而导致病毒入侵,后果将很严重。那么,如何做到完整性呢?大致可以分为以下几步:

首先数据采集阶段多人(推荐三人以上)同时对IT资产进行采集,那么在数据采集完成后,将会有三份或以上的IT资产清单。

接下来就是相互确认阶段。相互check对比两方的清单和自己梳理的清单,找到不一样的地方,大家在一起开会进行讨论。经过这个阶段,会产生一份相对完整且三方(或以上)认可的IT资产清单。

最后就是三方(或以上)一同针对认可的IT资产清单进行最终check,确保最后的清单,是经过多方讨论确认,并最终又check过的IT资产清单。此时这份IT资产清单,相对比较完整。另外在梳理、讨论和check的过程中,针对新增、变更、删除的IT资产一定要及时更新我们的IT资产清单。

2.准确性

准确性要求IT资产清单或是CMDB中存储的数据不能与实际情况有任何差异。要做到基础数据的准确性除了在数据采集阶段要下功夫外,要在运维管理的每一个阶段定期对基础数据进行审计,确保基础数据中的数据无误。一般月度一小审,半年一大审,具体情况根据企业的IT规模而定。

3.实时性

基础数据的实时性可以确保数据的准确性。即基础数据的每一次变动,包括增加、删除、修改,不论大小,只要有变动(在运维流程完结阶段,执行运维操作成功后,就要及时更新基础数据。忽略基础数据的实时性,必将导致准确性大打折扣,在以后的月审、年审中必将导致额外的工作量。一般在审计的过程中,当数据的错误率达到一定程度后,需要重新梳理全部数据,以确保最终的准确和完整。

CMDB

CMDB总的来说分为:产品线、资产管理、供应商管理三个部分。

总的思路是:通过产品线管理IT资产,通过IT资产信息管理硬件或服务提供者,供应商管理。

1.产品线

产品线是指整个公司所有IT系统、产品按照属性进行归类划分。这有一个前提,就是梳理整个公司的IT项目和IT服务。这里项目也可以理解为每一套IT系统,例如OA、CRM、订单系统、支付系统等等。

IT服务主要是指:应用服务(Tomcat、WebLogic、数据库服务等),基础IT服务如Nginx、Varnish、Redis等。通过项目和服务两个维度来管理IT资产,尤其是虚拟机。因为一般系统和服务都是部署在虚拟机上,虚拟机的宿主机则是一台台物理主机。

产品线的划分一般除了根据业务分类划分几个大的产品线外,还需要划分一些基础产品线,如:信息安全产品线,主要管理信息安全、网络安全等系统和设备等;基础服务产品线,如Nginx反向代理大部分系统,Varnish缓存Web静态资源等。

在这里单独说一下产品线和项目包括的服务必须制定运维优先级等级。运维等级的制定不能简单定义为多少级,而应该是为每一套系统进行运维优先级打分,分值不能一样。这样保证在大面积故障的时候,可以根据优先级解决问题。

2.资产管理

资产管理主要有以下几个方面。

首先是比较大的机房管理。有的企业可能会有多个机房,每个机房的基础信息,如带宽、位置、值班电话等都需要加以整理存储用来管理机房信息。机房中的机架、机柜、交换机、路由器等硬件信息,机房的空调、UPS电源、环境监测系统等都属于机房管理的范畴。

安全设备管理。安全设备管理这里主要包含防火墙、IPS、WAF、VPN等网络设施。企业信息安全非常重要,在运维管理中也把安全作为一个单独的模块进行管理。通过购买安全硬件设备和安全服务,不断学习和研究,从而保护好企业数据信息。

服务器管理。这里假定企业实现了虚拟化,大部分系统和服务都部署在虚拟机,而虚拟机是部署在物理机上。服务器管理分物理机和虚拟机分开管理,同时又密切关联。虚拟机在哪一台或几台物理机需记录清楚。

根据产品线中定义的运维优先度等级,在资产管理中的每一个节点标注上相应的等级分值,以便出现大规模故障,有选择、有重点、有顺序地逐一解决问题。

3.供应商管理

供应商管理主要是管理由第三方企业提供的IT系统或设备的服务信息。记录供应商的具体信息、值班电话、硬件备件库等信息。

以上几个模块单独管理,但是又密切相连。如产品线包含哪些项目,包含哪些服务,这些项目和服务部署在哪些虚拟机上,虚拟机又在哪一些物理机上,物理机分布在哪些机房和在机房中的具体位置,物理机在机房中的网络位置和网络架构如何,经过哪些安全设备等等。

反过来需要知道某一些机房有哪一些物理机,物理机位置,安全设备,以及安全设备与物理机的网络架构等,物理机上又有哪些虚拟机上部署了哪一些项目和服务等。系统和服务属于哪些供应商提供,供应商又提供了哪些系统、设备或服务器等。都要多维度进行管理。要求做到某一环节的故障,一查就知道所有受影响的系统和服务。CMDB中的信息相互交织,多维度查询和管理,构建出一张完整的总体架构图,通过总体架构图除了展现出各个部分的基础信息外,还描述了所有的依赖关系,做到坏一点而知全面。

日志

通过日志可以比较准确全面地知道系统或是设备的运行情况,可以返查问题产生的原因,还原问题发生的整个过程。通过日志也可以提前预测系统可能要发生的问题或是故障,如系统安全日志,如果网络攻击会在系统安全日志中有一定的体现。

1.系统日志

系统日志主要指的是操作系统的日志,主要在/var/log下的各种日志信息。包含系统操作日志、系统安全日志、定时任务日志等。系统日志是运维管理安全模块中审计的重要依据。一般默认的操作系统日志不能满足要求,需要对系统的参数进行修改,如为history命令加上时间戳、IP,并且长久保留历史等功能。并且对日志文件进行处理,不允许用户进行清空命令,只能append。

2.应用日志

应用日志主要记录应用服务的健康运行情况以及业务操作的具体日志两部分。应用监控运行情况反应应用服务的健康状态,如果应用占用CPU或是内存过高或是忽高忽低不定,都可以通过分析应用日志结合业务操作日志得出结论。业务操作日志可以为业务审计提供主要依据。有一些系统喜欢把业务操作日志写到数据库中,这个也是需要注意的。不过不管在哪个地方,要求是不可缺少的,它为以后业务审计和问题返查提供依据。

3.数据库日志

数据库日志主要反馈数据库的运行情况。通过监控和管理数据库的日志,及时了解数据库的运行情况,遇到问题及时解决等。可以通过数据库日志结合数据库系统自带的数据库如Oracle的系统视图v$开头,MySQL的performance_schema等。虽然数据库的一些信息不是存在日志中而是在数据库里面,但是也可以作为数据库日志的一部分进行管理和监控,已便我们及时知道数据库的监控状况,从而预防可能出现的问题。

4.设备日志

设备日志一般是一个比较容易忽略的地方,但设备日志往往可以反映设备的运行情况。交换机故障,防火墙故障等设备故障都可能引起大面积的系统和服务故障。所以设备日志一定要收集,分析和监控预警。常用的设备日志有交换机日志、防火墙日志、网络安全设备日志等。

在CMDB中梳理的IT基础设施的基础上,对日志进行分类收集、管理、分析和监控,配着监控管理模块的系统,就已经可以达到多方位监控IT系统,保障IT系统的安全稳定。

DB

由于数据和数据库的重要性,在基础数据中,数据库作为单独的模块存在,根据环境划分为:生产数据库、测试数据库、开发数据库。严格区分三种环境的数据库,避免测试数据到生产环境,生产数据到测试环境等。另外数据库中数据也为业务监控提供数据依据。通过查询数据库中的数据,依据业务逻辑进行判断是否有错误或是遗漏的数据。

知识库

知识库在整个运维管理中是一个辅助功能,主要为运维提供事件管理、问题管理。很多朋友可能会疑惑为什么把事件库和问题库放在知识库这里,这些不是应该在CMDB中吗?这里稍微解释一下,其实本人也并不太清楚这种办法是否可行。在CMDB模块中更多是偏向IT资产管理,为以后的运维操作提供运维范围和运维目标。而事件(主要指运维过程中遇到的所有的运维事件)和问题(需要进行变更发布才能解决的事件升级)更多是在IT资产之上,是解决IT资产的过程中遇到的事件和问题。如果把CMDB作为IT运维的基础管理对象和范围目标的话,事件和问题应该单独出来。也许在后面的运维管理中,逐渐强化CMDB的功能,会把事件库和问题库回归到CMDB模块中。

知识库中还包含经典案例库,主要是解决一些常遇故障、经典问题的解决方法的整理和归档。

解决方案库只要是一些常用的或是探索中的解决方案,例如:Nginx+Tomcat+Redis部署方案,FastDFS分布式文件服务器方案等。

文档库主要用来存储运维管理过程中执行的运维标准和规范以及运维的流程规范,常用的一些规范举例:

文档库也包括一些企业或是部门的规章制度,与供应商的合同条文等。主要是涉及到IT系统文档的一个存放和查阅的地方。

运维标准和运维流程的文档一定是必不可少的。因为运维自动化的前提就是运维的标准化和流程化。如果没有明确的标准和规范的流程,运维自动化就只能一直停留在测试环境的假想空间中。

总结

基础数据在整个运维管理中起到基础、奠基的重要作用,也是做运维管理平台的第一步和以后每一步的重要依据。一定要舍得投入时间、人力等来建立起完整、准确、实时的基础数据。打好地基,以后运维的每一步都将有条不紊地循序渐进,终将建设成属于运维的高楼大厦。

如果微信被运维删库、跑路,会造成什么恐怖的后果?你怎么看?

这个问题问的还是很有意思的,也是热点问题吧。如果微信被运维删库跑路的话,会造成什么样的结果呢,其它微信就简单的多运维常见事件了,它无这不微盟那么复杂,因为微盟是有更多客户数据的,结果也不太一样,因为它的服务对像并不多,也只是300万,但是数据量反而非常大,所以删库的影响反而更大运维常见事件了,微信被删库的话,结果会是这样的。

怎么我的微信登不上去?这是最为常见的。客户基本信息数据丢失了,微信会登不上去,使用手机号登录可能还会提升,没有注册过呢。这个影响是最大的,就是微信数据丢失了,啥啥都没有了。

再有的就是部分数据库的无法使用,比如有微信,可登录,但是好友没有了,朋友圈的数据没有了,备注的用户名没有了,等等,这个是一些相对影响小一点儿的。另外微信因为用户比较大,所以它的用户数据存储应该是分散式的,相对微盟这样的相对集中式管理还是不太一样的,个人认为了,具体的只有腾讯的工程师知道运维常见事件他们的数据存储方式了。

最后就是最恐怖了,那就是微信它有一个钱包账户,里面是有钱的,如果用户的账户信息缺失的话,可能会造成巨大的钱财无户主,想想看,你的钱是不是没有什么保障呢?所以钱最好还是不要放到微信里面好呀。

你好,很负责任的告诉你这种情况几乎不可能发生。

我们从如何删库的方式来分析下:

1.SQL清除数据库


企业一般情况下只有开发人员或DBA(数据库管理员)有权限通过SQL操作数据库。 基于数据的重要性,企业一般都有严格的权限限制及SQL审核机制,对操作人员的执行的SQL进行审查,粒度可以精确到执行时间长短、删除等危险性操作、数据查询结果量等,凡是匹配相应的策略,平台将会拒绝执行此类操作。 因此通过SQL达到删库是不可能的。

2.操作系统级别格式化或删除


操作系统级别的格式化或删除一般只有系统管理员有权限执行,但是以目前的自动化水平, 服务器的交付已经完全可以脱离系统管理员手动操作 ,从而有效的避免了人为操作引起的事故。另外, 系统管理员也都不是直接操作服务器,而是基于堡垒机操作,堡垒机已经对用户权限、目录、删除操作都做了限制,因此也无法做到删库的目的。


虽然,我们在网上偶尔听说某某公司程序员删库跑路,这其实都可以通过技术手段来避免,像腾讯、阿里、百度这样的大厂对删库这样的危险动作,肯定都是做了十足的防范,这种事情的发生的概率比中彩票还难。


最后, 企业的数据库都有高可用架构、异地容灾、完善的数据库备份计划,甚至还时长会对故障进行演练,因此即使发生数据库被删,也能够通过一些列手段将数据找回。


综上所述,微信被运维删库、跑路,用户感知的后果应该会是暂时登陆不了,不会有什么其他大的问题。不过,鉴于微信的流量,最终后果还得看吃瓜群众的反应。

刺激运维常见事件运维常见事件!!

删库最直接的影响就是能会导致系统瞬间崩溃,所有相关功能瘫痪,然后就是公司无法估计的经济损失。业务停摆、股票暴跌、市值下降再到后续的信任危机、对家抢单等等等等。

反正就是,严重的就像是微盟的下场,可能他们也没想到,一个女人能引发这么大的“ 血案 ”。

删库被称为程序员最后的底裤!!!是程序员最后的倔强!!!

一般来说,程序员还都是比较讲理的,但总有一些“大老板”不断地挑战小哥哥的底线,不管是从精神上还是物质上,不断地压榨小哥哥们,最后导致了悲剧的发生...

毕竟,删库简单,跑路难,删库的程序员都是抱着同归于尽的想法来进行的删库,在现在进行跑路实在是太难了,所以你放心,你只要不过分的欺负你的宝贝程序员他是不会轻易做出这么危险的事情的。

要说最轰轰烈烈的删库事件应该就是微盟的删库事件了,瞬间将rm-rf的身价狂抬到30亿短短的五个字符价值竟达到了30亿。

事件的起末应该就不用我多说了!!!大家肯定都已经懂已经知道了!!!

要想生活过的去,头上必须带点绿。

我还是简单的叙述一下吧!

某某员工不管被自己的老板绿了,然后还被威胁要辞退他,他的女朋友去帮他说情,然后这个可怜的小哥哥又被绿了。

愤怒之下的他,打算像个男人一样!站起来!

然后他就删库了,但是他没能跑路...

所以说小哥哥们要多注意锻炼身体,要不然你删库完都跑不了,就做好同归于尽的准备!!!

一定会有人问,那微盟这么大的公司没备份吗???

不好意思嗷,备份也被删库了。

这说明了一个很大的问题,备份不要只有一个,多个备份要分到不同的人手中管。

也不排除团队删库跑路哈,那估计真的是仇恨值爆表了!

剩下的小事件还有...

思科前员工在2016年7月到2018年4月任职期间,恶意删除思科四百多台虚拟机,造成16000个WebEx Teams账户被异常关闭。思科因此被客户退款超过100万美元,其损失共计240万美元。

2018年9月,顺丰一位高级工程师在升级系统数据库时,不慎将RUSS数据库删除,导致了顺丰线上发车功能约10小时无法使用,负面影响严重。最后该程序员被辞退,也被“跑路”了。

2017年9月,广西某大型IT企业为客户进行扩容割接时,误操作将HSS设备里面的用户数据格式化删除,导致该运营商近80万用户数据丢失从而无法通话和上网,波及七八个地市,事故重大。

还有好多,类似的事件。

要想安安心心的杜绝此类事件,还是要有待员工,不要让他们铤而走险。

怕删库,先容灾,再备份!

有关容灾备份的解决方案可以去云掣官网看, https://www.dtstack.com/dtsmart/#tt

如果微信被运维删库、跑路,会造成什么恐怖的后果?你怎么看? 最近微盟公司因为员工和公司之间的矛盾,于是员工怒删微盟公司数据库导致了公司SaaS业务崩溃、基于微盟的商家小程序处于不能运行状态,300万商家商家生意停摆。并且还导致了微盟集团在港市值蒸发10亿,搞得是沸沸扬扬。

这次数据被删造成了微盟公司信誉的重大损失,到目前微盟公司的数据库还没有恢复,最新的消息是要到2月28日24时才能完全恢复,也就是说这一下竟然有差不多四五天时间基于微盟数据库的300万商家小程序不能正常运行,会带来相当大的损失。本来现在生意就难做,再加上小程序还不能使用,更是雪上加霜。

微盟公司与腾讯相比可以说体量完全不一样,即使微信的用户数量就达到了10亿级别,与300万用户数相比完全不是一个级别。况且还有几亿商家基于微信开发的各种各样的应用等等。如果微信发生数据库删除的情况,可以说会对微信会造成几乎整个 社会 一片愤怒,而不是像微盟那样单单300万商家。


微信里面不但有个人、群之间的聊天这么简单,即使是基于微信作为营销阵地的各种团队、个人将会是哀嚎一片。有基于微信做得各种各样的应用、小程序、个人财富等等,给个人和商家财富的损失比如零钱、理财等,会给腾讯带来数不清的官司、几千上亿商家业务的崩毁,这给腾讯带来几乎毁灭性的打击。

如果微信不能保证安全,那么其对手必然会加大对微信用户的吸收,到后来微信也许就会逐渐凋零步入小众,也许人手一个微信的将会变成人手一个支付宝。没有了微信这个平台腾讯将会失掉收割的臂膀,腾讯的业务会随着微信的凋落,也将一步一步走向平庸。


不过这一切都是假设,像腾讯公司微信这么大体量的业务,已经做好了万全的备份策略,即使是删除掉某些内容,很快也会恢复回来。


一个运维就想把微信删库?那是不可能的!

只能说非专业人士,对微信这个规模的系统一无所知,对运维的概念还挺停留在小网站的层面。

用户数据是微信得以生存的基础,一旦微信用户数据被删除,可想而知,微信的发展到底会受到什么样的掣肘,甚至于微信可能会陷入到“生死存亡”的关键时刻,怎么样的信任危机呢?

但是,我们的担心有多多余呢?其实,我们得知道的是,腾讯的数据库——

腾讯贵安七星数据中心的表现出色,更兼具安全性。

除此之外,腾讯江宁数据中心,上海数据中心等等,以及腾讯贵安七星数据中心等等,都让腾讯的数据库分散四处,且进行多种备份。

除此之外,用户管理这种绝密的数据,是在腾讯中心进行管理的,并且大量删除数据权限需要多人授权,单个人删除腾讯数据几乎可能为0!

这还用想?阿里钉钉立马趁火打劫推出普适版啊~只要微信一黑,阿里内部给钉钉的预算绝对是“无上限”级别。

当然这都是后话,人家托尼马也不是吃素的,自家的社交命脉,没那么脆弱,对于用户数据那都是多套备份,无缝衔接,就和酒店停电,地下室的发电机会立马启动一个道理。而微信有这个权利把所有备份删光的除非托尼马暗示张小龙花一定的时间才能做到完全删库

听说IT运维人员学的第一课就是“从删库到跑路”,虽然这是一句玩笑话,但是在一些不是很规范的IT企业,IT运维的很多操作都是在线的,一不小心就会给企业的数据库带来灾难性的后果,万一没有备份,客户的数据都找不回来了,那么企业多半也就黄了,有的甚至还要向客户赔偿经济损失。

所以IT企业运营有一个重要的环节就是备份,正规的企业都会有多种备份方式,比如异地备份、云端备份等。而且正规企业的IT运维人员不止一个,每个运维都有不同的权限。能够访问数据的运维一般都没有操作备份数据的权限,为的就是避免一个运维“精神失常”,把数据和备份一锅端了。

而腾讯是IT企业中的龙头老大,规章制度和备份机制肯定是最完善的。所以如果微信被运维删库、跑路了,那么肯定会有其他运维第一时间顶替对方的工作,然后通过备份来恢复数据。这种情况下,微信可能会出现无法登陆、不能发消息、不能打开公众号、小程序等故障,持续的时间则由运维人员恢复数据的速度来决定。

一般来说,只要保存数据的服务器没有遭受物理损坏,通过普通方式删除掉的数据基本上都是可以恢复,即使数据库完全被清空了,备份也没有了,也可以通过恢复硬盘的方式来找回数据。只不过速度有些慢而已。比如这次事件当中被删除的微盟就已经宣布:已经全面找回数据,并将于3月2日晚上10点到3月3日上午9点,正式进行恢复上线。

至于微信的用户数量上10亿,所以涉及到的数据和备份也达到了一个天量的数级,因此微信的数据库很有可能不是由一个运维人员来掌握的,而是分成几个甚至几百个部分,由不同的运维分开控制,每个运维的权限也不一样,互相不能访问。甚至每份数据都保存在不同的地点。这样一来,就算其中一个运维删库跑路了,影响到微信的可能也是数据库中的一个很小的部分,不会影响到整体。比如某一个用户数据库被删掉了,可能就只会导致十几万或者上百万的微信用户无法正常登陆,但其余大部分用户可能压根感觉不到有什么影响。

另外,微信的聊天数据并没有被保存在服务器上,而是保存在用户的手机里。所以就算微信被删库了,用户的聊天记录也不受影响,只要用户保证手机中的聊天记录不被删除就可以了。反过来如果手机中的聊天记录删除了,基本上就没有找回的方法了。

总而言之,微信的数据肯定有一个严密、安全的保护方式,而且有非常稳妥有效的数据恢复方案。所以就算有运维把他所负责的微信数据库删除了,可能对微信整体也无法造成太大的影响。那种被运维删库后就找不回数据的情况,通常只会发生在不怎么规范的中小型企业身上。

首先要明确,删是删不动的,就算一时能删除,也很快能找出备份恢复,所以恐怖后果不太可能,短期出现一些波动震荡就正常。

因为造不出什么恶劣后果,所以跑路真没必要,除非他能够从中获取到重大的经济利益。

可能吗?

这种可能性极大。收到竞争对手重金贿赂违法反职业道德是一种,或者因为腾讯是上市公司,重金高杠杆期货做空也是一种。

用户数据是微信得以生存的基础。

区区一个两个运维对微信能造成的伤害极小,一时删档,迅速恢复,就如大河里的一朵浪花,起不到多大作用,但要预防有恶意者结合政治经济形势下做出的联动,那样有可能造成恐怖的后果。

比如结合前段时间国家对互联网超大企业“二选一”规则的限制,腾讯的股价本身就在暴跌中,那时的百上加斤就最可怕。

单纯的理工男的泄愤行为,对微信这颗大树的影响微乎其微,基本可以忽略不计。



运维能对微信造成的伤害极其有限,并且也有时间局限

微信的数据有一个严密、安全的保护方式,而且有非常稳妥有效的数据恢复方案。所以就算有运维把他所负责的微信数据库删除了,可能对微信整体也无法造成太大的影响。那种被运维删库后就找不回数据的情况,通常只会发生在不怎么规范的中小型企业身上。

以阿里巴巴为例,你要想全部删除,至少需要150个左右完全不同小组的最高权限。

由于微信的用户数量上10亿,涉及到的数据和备份也达到天量,因此微信的数据库也不是由一个运维人员来掌握的,而是分成几个甚至几百个部分,由不同的运维分开控制,每个运维的权限也不一样,互相不能访问,甚至每份数据都保存在不同的地点。

这样一来,就算其中一个运维删库跑路了,影响到微信的可能也是数据库中的一个很小的部分,不会影响到整体。比如某一个用户数据库被删掉了,可能就只会导致十几万或者上百万的微信用户无法正常登陆,但其余大部分用户可能压根感觉不到有什么影响。

而且一般来说,只要保存数据的服务器没有遭受物理损坏,通过普通方式删除掉的数据基本上都是可以恢复,即使数据库完全被清空了,备份也没有了,也可以通过恢复硬盘的方式来找回数据。只不过速度有些慢而已。

当然微信里面不但有个人、群之间的聊天这么简单,有基于微信做的各种各样的应用、小程序、个人财富等等,那些基于微信作为营销阵地的各种团队、个人将会是哀嚎一片。给个人和商家财富的损失比如零钱、理财等,会给腾讯带来数不清的官司、几千上亿商家业务的损失,以及无形商誉和品牌名声上的质疑。

这些都会给微信带来一定的纠纷和麻烦,但是只要恢复速度够快,微信的体量也大,还是能够轻易消化这些纠纷和损失的。



若是竞争对手打击必然配合有系统整套的计划

因此,就要预防在战争或者非常情况下竞争对手精密部署,做出恶意的系统性计划来。

近年的几个案例可以作为分析警醒。

微盟公司因为员工和公司之间的矛盾,于是员工怒删微盟公司数据库导致了公司SaaS业务崩溃、基于微盟的商家小程序处于不能运行状态,300万商家商家生意停摆。并且还导致了微盟集团在港市值蒸发10亿,搞得是沸沸扬扬。

这个是规模小,删除成功了,而且备份系统不够强大,恢复时间有点长,这种威胁对微信来说可以轻松应对。

2018年9月,顺丰一位高级工程师在升级系统数据库时,不慎将RUSS数据库删除,导致了顺丰线上发车功能约10小时无法使用,负面影响严重。最后该程序员被辞退。

顺丰数据库规模够大,这位高级工程师已经身处核心,也造成了严重后果,顺丰花了10小时恢复,可见运维这种行为能影响大型互联网企业的时间是很短的,关键是因之衍生出来的各种 社会 影响和负面影响才是要紧。

思科前员工在2016年7月到2018年4月任职期间,恶意删除思科四百多台虚拟机,造成16000个WebEx Teams账户被异常关闭。思科因此被客户退款超过100万美元,其损失共计240万美元。

这个案例造成的影响是由客户直接反应回来的,正如蚂蚁延缓上市,阿里巴巴美股投资者起诉阿里巴巴一样,配合上政策性因素以及市场放大反应,那才是真正致命的东西。

至于微信可能会出现无法登陆、不能发消息、不能打开公众号、小程序等故障,持续的时间则由运维人员恢复数据的速度来决定。这些只是事件的原点,能放大到多少倍要看市场的反应和当时的环境,以及有没有被恶意设计。

在疫情肆虐的如今,金融投资者的心态已经没有以前那样平和理智,这无疑也会提供一定的加成放大因素。

删库最直接的影响就是能会导致系统瞬间崩溃,所有相关功能瘫痪,然后就是公司无法估计的经济损失。业务停摆、股票暴跌、市值下降再到后续的信任危机、对家抢单等等等等。

另外出现这样重大的安全和管理漏洞,也会引发市场对腾讯管理经营水平的怀疑,从而大幅动摇投资者对上市公司高昂股价的信心。

单一因素并不可怕,要预防竞争对手甚至敌对国家组合所有因素的重磅一击。



若是个人行为必然伴随重大的经济利益

干什么事情都要讲经济利益的。

IT企业运营有一个重要的环节就是备份,正规的企业都会有多种备份方式,比如异地备份、云端备份等。而且正规企业的IT运维人员不止一个,每个运维都有不同的权限。能够访问数据的运维一般都没有操作备份数据的权限,为的就是避免一个运维“精神失常”,把数据和备份一锅端了。

作为一个无论清醒理智还是不理智的运维,基础的专业知识都是存在的,既然知道短期删除对微信造不成实质伤害,还是要做,必然有其深刻现实的原因。

他为什么要删掉跑路,定然牵涉到重大的经济利益,而且知道数据可以恢复,导致东窗事发,只有一走了之。

连续近期政策性因素影响的大跌后,阿里、腾讯、京东、美团互联网四巨头股价最终迎来回升。港股方面,阿里巴巴涨3.14%,腾讯控股涨5.44%,京东涨8%,美团涨7.9%。其中,腾讯最新市值55687.27亿港元继续超过阿里,位居港股市值第一的宝座。

这样巨大的五万亿市值,一个波动,就能造就无数个千万甚至亿万富翁。

因删档造成的短期腾讯的股价大幅下降,存在资本市场大幅做空获利的巨大空间,这应该是才是运维奋不顾身的原因。

不过说实话,世界早已过了单打独斗个人英雄的时代,个别运维如果不结合时势,只不过是蚂蚁撼树,终究无可奈何。


综上所述,理工男单纯的意气删除,对微信的伤害其实是微乎其微的,但是在国际环境、政策变化、竞争对手、甚至敌对国家组合各种因素,也抓住有利时机的情况下才有可能造成恐怖效果,这个值得微信运营警惕深思防范。

一帮子不审题就答题的人,题主问的是如果被删会怎么样,而不是微信会不会发生删库的事情。

为什么服务器的宕机一般都发生在凌晨使用率最低的时候?

计科专业从事嵌入式软件开发多年,最近因为公司需要搞后台研发,经常选择升级的时机放在凌晨,而且大型的数据处理也是放在这个时间段内,经常发生的服务器宕机也是在这个时段。都是在用户使用少的时候开始折腾,折腾的次数多也就容易出现服务器问题。由于做的是物联网设备,在工作中遇到的宕机主要有这么几种情况,对大量数据的操作导致CPU占比在一段时间内骤增从而导致数据接收模块出问题,导致系统监控出现问题,很多设备信息检测不到了。

对数据库的操作太频繁导致效率的下降,也是影响系统性能很重要的一部分,其实服务器也是普通电脑的构成,主要的资源是CPU和内存,这两个因素无论是哪种都有可能导致系统的崩盘,如果是CPU被占满了,系统的反应会变得异常缓慢,时间长了可能还会慢慢缓过劲来,内存如果占满了那么会导致系统的崩溃,直接运行不下去了,其实宕机核心点不会跑出这两种因素。

现在就常见的服务器宕机问题做个归纳总结:

1.磁盘空间被占满,现在程序员运行的时候都习惯于带上log打印,如果时间长了加上没有清理的机制早晚会出问题,这个错误在平时运行过程中经常出现,如果使用的云计算服务器通常在系统崩盘之前都会发个短信,通知你的系统处于崩溃的边缘。

2.并发性能问题,如果多个人同时操作一个数据库或者数据块,会导致系统假死状态,这种属于争抢CPU资源问题,可以通过增加硬件配置以及优化软件代码的效率去解决,数据量如何足够大就可以考虑分布式的管理

3.数据受损或者被破坏导致系统崩盘,所以常见的做法是都会配置备份盘,出现问题抓紧拿到备份盘来顶上,现在公司使用的是阿里云的服务器,稳定性相比之前好太多了,中间换过电信云,腾讯云虽然价格低点,最后受不了直接换成阿里云,再也不想换回去了,数据的稳定性永远是第一位的。

4,一些没有必要的误操作,很多时候是因为程序员或者运维人员的误操作大致服务器大面积的宕机,这种事件在很多云服务提供商身上都发生过,根本层面还是管理问题。后台管理的任何细节都有可能

服务器宕机查找问题的几个线索:

1.看看服务器是不是存在内存泄漏问题,有些时候重启机器开始还能正常运行弄了一段时间之后就会变得非常缓慢,十有八九都是内存的问题

2.是否有黑客入侵造成,有些非常关键重要的数据也是黑客最感兴趣的,一般来讲这种概率不是很高

3.是不是数据库死锁导致的,访问量过大导致,连接数过多造成的。

服务器宕机一旦发生就会引起用户的无数的投诉,无论在什么情况下稳定永远是第一位,现在大的功能升级除非已经百分百验证成功,否则引起的后果不堪设想。

希望能帮到你。

之前我们单位夜晚有一台设备down了,这台设备做的堆叠,而不是备份,所有下联线路全部连接在主设备上。结果当晚凌晨,主设备的电源模块损坏了!这... 你能看出规律吗?我也想知道为什么它偏偏凌晨损坏了!

所以说,偶然性事件,不能说大部分!

但是夜间割接倒是正常,选择在用户最少的时候做可能影响业务的必要事情是常识。

虽说在凌晨的时候,使用系统的用户非常少,但是服务器在这个时候要做的工作可能一点儿也没有少:
再说一个很久以前看到的,同行们分享的服务器宕机的经历,有些经历非常之神奇,大家就当段子看吧(为了方便,我就按照第一人称来讲述)。

我们服务的甲方是一家医院,机房就在医院的楼中,最近机房的服务器经常性的发生宕机,公司的工程师去了几次也没有发现问题;后来公司被折腾的没办法了,决定让一个工程师晚上住在机房,看看半夜机房中究竟发生了什么事儿,想着就算找不到原因,也能在服务器宕机后第一时间重启。

后来发现原因,到了凌晨三四点的时候,机房门打开了,进来一个值夜班的小护士,看了一眼说:“又没有人,开着空调不浪费电么?”然后就把机房的空调关掉了,然后气温上升...
我将持续分享Java开发、架构设计、程序员职业发展等方面的见解,希望能得到你的关注。
偶发性的,可以能是你浅意识的,因为这种问题印像最深刻,可能认为比较多,通过做记录去试下。
宕机一般分5种情况:

1、程序上出了问题导致程序崩溃。

2、cpu\\Gpu 、内存占满了。

3、硬盘空间满了

4、数据库表空间满了

5、机房温度过高
以上是个人在运维过程中所遇到的问题,做的总结性回答

这里需要说明一下,服务器宕机是什么意思呢? 我们日常说的“宕机”中的“宕”其实指的是英文“down”,宕机表示当前服务器或服务无响应或者不在线状态。

服务器的宕机可分为人为控制的宕机、不可控的宕机。 这两者有什么区别呢,下面来具体说明一下:

1、人为可控的宕机行为

服务器长时间的运行可能会带来一些(非致命性)问题,又或者我们需要对服务器进行软/硬件的升级维护时,可能需要停机或者重启操作。这种情况下的宕机是可控的,在我们的计划之内。

2、不可控宕机行为

这种因素就很多了,比如说 服务器突然蓝屏、服务异常崩溃、突然断电断网了 ,这时候服务(器)就无法正常提供服务,这些都是不可控因素导致的。

而 在我们的日常运维工作中,计划性的宕机维护一般都选择在半夜 来做这些事,为什么呢,原因主要有这几点:
1、 减少对用户的影响

凌晨大家基本上都休息了,用户量较白天来说小得多,所以选择在此时进行系统及硬件的维护导致的宕机对用户的影响较小,就算有影响也只是影响小部分用户。

2、 有足够的时间来处理故障

在凌晨进行维护,就算有问题,技术人员也有足够的时间(比如说:00~05点)去处理故障。如果换成在日间维护,服务(器)宕机1小时以上投诉单全都过来了,压力很大的。

服务器宕机是指服务器因为一些原因导致服务器无法正常运行,造成网络断开,无法正常使用网络。服务器宕机一般都发生在凌晨,为什么会出现这种情况呢? 像我们公司是从事 科技 互联网设备生产的,为了不影响正常生产,系统升级的时候一般都是在凌晨,而且很多的数据处理也放在这个时候,服务器在这个时候也容易出现问题,具体分析有以下几种原因:
1. 系统在升级或处理大的数据时,硬盘空间被占满,如果没有人能及时清理磁盘空间,服务器就会出现卡顿的问题造成宕机。

2.如果是多台设备同时在操作,使用这一个数据库,会引起系统假死的现象,这个是属于抢占CPU的资源造成的,会导致服务器不堪自负,网站访问量猛增,程序中毒遭到很多的应用都在消耗服务器,最终死机无法响应。
3.由于凌晨维护人员减少,会出现断电,温度过高等等环境因素的影响,使服务器死机等等,不过这种情况是很少见的,因为现在机房都有发电机备用避免停电造成的数据丢失,温度也是采用的恒温系统。

4.有的企业为了节省服务器的费用,会租用较低配置的服务器来从事很多的工作,使服务器超负荷运转,结果是可以预料得到的,宕机就会经常发生。

5.服务器宕机一般和内存有很大的关系,有些服务器运行了一段时间后速度就变慢了,基本上就是内存出现问题,要检查一下内存是否存在泄漏的问题。
服务器宕机会出现一系列的问题,造成的损失也是无法估量的,只有平时定期做好维护,在凌晨的时候也要注意掌握使用状况才能避免宕机,无论在任何时候,服务器的稳定运转才是最重要的。

服务器应用软件在运行过程中状态很稳定,一般不会发生问题。宕机发生在凌晨概率高的原因是:一是功能升级、硬件更换多在凌晨,导致问题发生概率高;二是批量执行多在凌晨,瞬间资源消耗很大,数据问题、硬件资源问题、甚至处理逻辑问题都容易导致宕机。另外,如果是联机交易出了问题,很容易被发现,不会让系统宕机。

原理其实很简单:这就如同我们白天忙碌着很多事物性的工作,就如同搬运工一样,不停的搬运物品入库,只有在物品都搬运完了的时候,我们才能开始整理这些物品,整理仓库,。

其二,服务器在白天的时候,其实都在实时处理数据的“搬运工”状态,只有在实时性数据处理工作(搬运工作)完成以后,才有机会或才能腾出手来去做数据的归纳和整理。所以,服务器的宕机时间,通常会发生在使用率最低的时间段。仅此。

正常跑稳的业务,一般很难因为正常业务操作造成服务器宕机的。服务器资源问题大部分情况下是可预测,可控制的。

最容易造成宕机的事情,反而是开发/运维的不当操作造成的。比如更换服务器硬件,升级/安转os程序包,发布新代码,批量更新数据等等,这些事一般都是半夜业务量小的时候做。

因为凌晨是最困得时候,服务器一打盹就宕机了。

运维的工作内容有哪些?

运维运维常见事件的职责覆盖运维常见事件了产品从设计到发布、运行维护、变更升级及至下线运维常见事件的生命周期运维常见事件,各个阶段的职责包括:

1、产品发布前

这个阶段运维工程师的职责是参与设计并把有关运维准入,主要包括:

(1) 产品的业务熟悉;

(2) 产品架构设计的合理性评估,包括是否存在单点,是否可容错,是否有强耦合等,同时需要提供产品设计的合理性建议以使产品能够满足上线发布并稳定运行的基本要求;

(3) 资源评估,包括所需的服务器资源、网络资源以及资源的分布等,同时把相关产品对资源预算申请的合理性,控制服务成本;

(4) 资源就位,将申请的服务器及基础环境/域名准备就位。

2、产品发布

这个阶段运维工程师负责发布的具体工作,将具体的软件和系统/硬件资源整合形成产品并对外提供服务。

对于已在线服务的更新也属于发布范畴,这个时候的产品发布一般要保障在线发布,在不中断对外服务的情况下完成产品的升级。对于大型复杂的变更也存在中止服务部署完成后再重新提供服务的情况,但这种情况需要运维工程师通过尽可能的技术手段来避免。

3、产品运行维护

这个阶段的主要工作包括:

(1) 监控:对服务运行的状态进行实时的监控,随时发现服务的运行异常和资源消耗情况;输出重要的日常服务运行报表以评估服务/业务整体运行状况,发现服务隐患;

(2) 故障处理:对服务出现的任何异常进行及时处理,尽可能避免问题的扩大化甚至中止服务。这之前运维工程师需要针对各类服务异常,如机房/网络故障、程序bug等问题制定处理的预案,问题出现时可以自动或手动执行预案达到止损的目的。

除了日常小故障外,运维工程师还需要考虑产品不同程度受损情况下的灾难恢复,包括诸如地震等不可抗力导致大规模机房故障、在线产品被删除等对产品造成致命伤害的情况。

容量管理:包括服务规模扩张后的资源评估、扩容、机房迁移、流量调度等规划和具体实施。

4、产品性能/成本优化

产品对外提供服务最重要的一点是用户体验,用户体验中非常重要的是产品的可用性和响应速度。而如何用最合理的资源(如机器、带宽等)支持产品提供高可用和高速度的用户体验,这也是运维工程师的重要职责。

5、产品下线

发展良好的互联网产品将始终在线对外提供服务,但互联网产品快速迭代,也存在相当多孵化的产品最后被淘汰的情况,这些产品都需要做下线处理,这个过程运维工程师主要做好资源回收的工作,将机器/网络等资源回收后纳入资源池中供其它服务使用。

IT运维中事件管理中的服务请求有没有响应时间和解决时间?是和事件要求是一样的么?

在ITIL的事件管理是有响应时间和解决时间,并且响应时间(Accept Time)和 解决时间(Resolve Time)是非常重要的两个时间,

响应时间:对事件开始启动受理及响应的时间

解决时间:最终问题被处理完成的时间。

两者的时间差就是解决时长,解决时长对应的就是SLA的服务级别中优先级的具体要求。

优先级=紧急度*影响度。

这和事件要求及事件来源都不是一个概念。
例如当影响度为高、紧急度也为高的一个方案,优先级就是最高级,对于解决时长要求是10分钟。

影响度为中、紧急度为低的一个方案,优先级为低,对应解决时长要求是4小时。

IT运维管理陷人力成本困境的常见原因

1、IT运维职责不明确,导致人力成本严重浪费

2、IT运维管理流程缺乏分级管理,导致人力成本隐性浪费

3、缺乏量化的绩效管理,人员潜力难以最大化

☆C语言的话用结构体
C++的话用类
基本就是一个循环和一个switch语句可以搞定.
其中的文本读写很重要,要实时保持你程序当前的数据和文本里面的数据一致.

关于运维常见事件和运维常见故障的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 运维常见事件的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于运维常见故障、运维常见事件的信息别忘了在本站进行查找喔。
上一篇:it运维经理述职报告(运维部主任的述职报告)
下一篇:mac 性能测试(Mac性能测试)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~