运维平台的真实事件(运维事件报告)

来源网友投稿 786 2023-02-14

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈运维平台的真实事件,以及运维事件报告对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享运维平台的真实事件的知识,其中也会对运维事件报告进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

微盟事件真相是什么?

事情经过

2020年2月23日18时56分许运维平台的真实事件,微盟核心运维贺某酒后因生活不如意、无力偿还网贷等个人原因运维平台的真实事件,在其暂住地上海市宝山区逸仙路XXX弄XXX号XXX室运维平台的真实事件,通过电脑连接公司VPN、登录公司服务器后执行删除任务,将微盟服务器内数据全部删除,导致微盟自2020年2月23日19时起瘫痪,300余万用户(其中付费用户7万余户)无法正常使用该公司 SaaS 产品。(上述来源:中国裁判文书网)

2月25日,我们紧急恢复运维平台的真实事件了核心业务的线上生产环境,新用户使用不受影响,并提供老用户临时过渡方案,确保商家在数据暂时没有恢复的情况下可以正常经营。

2月28日,我们恢复了所有业务的线上生产环境,并且开放了老用户登录,以及恢复了微站产品的所有数据。

截止到3月1日晚8点,在腾讯云团队协助下,经过7*24小时的努力,我们数据已经全面找回,由于此次数据量规模非常大,为了保证数据一致性和线上体验,我们将于3月2日凌晨2点进行系统上线演练,将于3月3日上午9点数据恢复正式上线。

此次事故给商家经营造成了严重的影响,公司管理层对此深感自责和愧疚,我们准备了1.5亿元人民币赔付拨备金,其中公司承担1亿元,管理层承担5000万元。在紧抓数据恢复的同时,也在同步研究商家赔付方案,我们拟定了现金赔付计划和流量赔付计划供商家选择。

同时此次事故也暴露出公司在数据安全方面出现了管理漏洞。事故发生后,我们加强了内部流程控制管理,同时邀请外部数据安全专家一起来评估数据安全保障方案,并迅速制定了一份数据安全保障计划,以杜绝此类事故的再次发生。

赔付计划

此次事故给商家经营造成了严重的影响,公司管理层对此深感自责和愧疚。事故发生后,公司管理层在紧抓数据恢复的同时,也在同步研究商家赔付方案。

首先针对此次赔付计划,我们准备了1.5亿元人民币赔付拨备金,其中公司承担1亿元,管理层承担5000万元。其中公司董事会主席兼首席执行官孙涛勇承担3500万元,公司执行董事兼首席技术官黄骏伟承担500万元,公司执行董事兼智慧商业事业群总裁方桐舒承担500万元,公司执行董事兼智慧营销事业群总裁游凤椿承担500万元。

其次整个赔付方案中,我们既要考虑商家因系统不可用而造成的利润损失,同时也要考虑系统不可用而带来的流量损失,因此我们的赔付计划做了两个不同的方案供商家任选其一。

01

现金赔付计划

我们会针对因系统不可用期间商家边际贡献利润额进行赔付,具体公式计算如下:

边际贡献利润额=日均收入×行业平均边际贡献利润率×系统故障时间

(其中日均收入等于该商家在2020年2月17日晚7点至2020年2月23日晚7点在微盟系统中产生的实际成交额除税后的平均值;边际贡献利润率是指在收入(不含税)基础上扣除商品成本、仓储及物流费及推广费、销售佣金等与商品服务销售及交付过程直接相关的费用之后的边际贡献利润占收入的比例;行业边际贡献利润率最终参考值将以研究机构公开报告为准;系统故障时间自2月23日晚7点至3月3日上午9点)

02

流量赔付计划

我们会针对因系统不可用期间的商家给予腾讯广告50000曝光次数进行流量补偿,并且提供账户运营服务,同时再延长SaaS服务有效期两个月。

(其中腾讯广告包括微信朋友圈广告、微信公众号广告、小程序广告等;曝光次数是指该广告被用户看到的次数;运营服务包含广告的创意策划、素材制作、投放执行、数据分析、账户优化、数据报表等运营服务)

最后我们所有的赔付将通过线上赔付系统完成,公司将在接下来一个月左右开发完成线上赔付系统,届时商家可通过登录微盟商户后台,点击申请赔付即可完成。

数据安全保障计划

此次事故暴露出公司在数据安全方面出现了管理漏洞。事故发生后,我们内部在系统自查的同时邀请外部数据安全专家一起来评估数据安全保障方案,现公布措施如下:

措施一:数据安全管理机制全面加固与整改,加强运维平台治理

1、完善数据安全管理制度(涵盖权限、监控、审计方面),严格执行授权审批制度;

2、使用腾讯云CAM权限系统进行云资源管理,严格执行分级授权和最小集权限制度,对高危险动作执行二次授权制度;

3、建立科学、高效、安全的网络策略,对开发环境、测试环境和生产环境进行严格隔离;使用腾讯云堡垒机替换自建堡垒机,进行细粒度权限分级和授权管理,同时严格审计堡垒机操作日志,发送安全审计报表;

4、加强运维安全流程学习,职业道德学习,法律学习等。

措施二:加强灾备体系的建设,做到多云异地冷备1、建立多云灾备体系,在北京、上海、南京等地区建立全备份的冷备系统架构;2、借助腾讯云的IAAS的底层服务能力,建立高可用的同城双活架构;3、云上所有的云主机,启用每天的快照策略,保证全量和增量备份;4、所有非结构化数据,使用腾讯COS对象存储系统进行归档保存,启用COS的多异地复制功能,数据存放多地,并且COS冷存储,确保数据只增不减;5、建立月、季度级别的定期演练机制和制度

措施三:基础设施全力上云1、借助腾讯云数据库MySQL的数据高可用和安全体系,逐步放弃自建数据库服务,迁移到腾讯云数据库(CDB),快速具备数据库跨可用区和异地灾备的能力;2、黑石1.0物理机全面升级黑石2.0,全面使用云主机。

法院判决

2020年9月,上海市宝山区人民法院认为,贺某行为违反国家规定,删除计算机信息系统中存储的数据,造成特别严重的后果,其行为已构成破坏计算机信息系统罪,应当依法追究刑事责任。公诉机关指控的犯罪事实清楚,证据确实充分,罪名成立。

贺某如实供述自己的罪行,认罪认罚,可依法从轻处罚。辩护人的相关意见本院予以采纳。依照《中华人民共和国刑法》第二百八十六条第二款、第六十七条第三款、第六十四条、《中华人民共和国刑事诉讼法》第十五条之规定,判决如下:

一、贺某犯破坏计算机信息系统罪,判处有期徒刑六年。(刑期从判决执行之日起计算。判决执行以前先行羁押的,羁押一日折抵刑期一日,即自2020年2月24日起至2026年2月23日止。)

二、作案工具笔记本电脑一台依法没收。

运维真有那么苦逼吗

运维会比较累一点,去了人员紧张的公司,小一点的公司,把一个人当好几个人用,那你的体力就容易透支。

对于初创公司,运维部和系统部一般是合二为一的,相关工作由同一批人负责,界限可能不是很明显。大型公司对运维工作的要求更高,需要有更精细的分工,因此机房/网络/操作系统相关的底层工作分离出来由专人负责;

成为系统管理部,而上层和应用产品相关的工作则由运维负责,成为运维部。以下从互联网产品生命周期和运维涉及的技术分别来看分工较细的大型互联网公司中运维工作的职责。

扩展资料:

从行业角度来看,随着中国互联网的高速发展、网站规模越来越来大、架构越来越复杂,对专职网站运维工程师、网站架构师的要求会越来越急迫,特别是对有经验的优秀运维人才需求量大,而且是越老越值钱。

从个人角度,运维工程师技术含量及要求会越来越高,同时也是对公司应用、架构最了解最熟悉的人、越来越得到重视。

互联网运维是一个融合多学科(网络、系统、开发、安全、应用架构、存储等)的综合性技术岗位,给运维工程师提供了一个很好的个人能力与技术的发展空间。

IT运维平台算法背后的两大“神助攻”

智能运维(AIops)是目前 IT 运维领域最火热的词汇,全称是 Algorithmic IT operations platforms,正规翻译是『基于算法的 IT 运维平台』,直观可见算法是智能运维的核心要素之一。
本文主要谈算法对运维的作用,涉及异常检测和归因分析两方面,围绕运维系统Kale 中 skyline、Oculus 模块、Opprentice 系统、Granger causality(格兰杰因果关系)、FastDTW 算法等细节展开。

一、异常检测

异常检测,是运维工程师们最先可能接触的地方了。毕竟监控告警是所有运维工作的基础。设定告警阈值是一项耗时耗力的工作,需要运维人员在充分了解业务的前提下才能进行,还得考虑业务是不是平稳发展状态,否则一两周改动一次,运维工程师绝对是要发疯的。

如果能将这部分工作交给算法来解决,无疑是推翻一座大山。这件事情,机器学习当然可以做到。但是不用机器学习,基于数学统计的算法,同样可以,而且效果也不差。

异常检测之Skyline异常检测模块

2013年,Etsy 开源了一个内部的运维系统,叫 Kale。其中的 skyline 部分,就是做异常检测的模块, 它提供了 9 种异常检测算法 :

first_hour_average、

simple_stddev_from_moving_average、

stddev_from_moving_average、

mean_subtraction_cumulation、

least_squares

histogram_bins、

grubbs、

median_absolute_deviation、

Kolmogorov-Smirnov_test

简要的概括来说,这9种算法分为两类:

从正态分布入手:假设数据服从高斯分布,可以通过标准差来确定绝大多数数据点的区间;或者根据分布的直方图,落在过少直方里的数据就是异常;或者根据箱体图分析来避免造成长尾影响。

从样本校验入手:采用 Kolmogorov-Smirnov、Shapiro-Wilk、Lilliefor 等非参数校验方法。

这些都是统计学上的算法,而不是机器学习的事情。当然,Etsy 这个 Skyline 项目并不是异常检测的全部。

首先,这里只考虑了一个指标自己的状态,从纵向的时序角度做异常检测。而没有考虑业务的复杂性导致的横向异常。其次,提供了这么多种算法,到底一个指标在哪种算法下判断的更准?这又是一个很难判断的事情。

问题一: 实现上的抉择。同样的样本校验算法,可以用来对比一个指标的当前和历史情况,也可以用来对比多个指标里哪个跟别的指标不一样。

问题二: Skyline 其实自己采用了一种特别朴实和简单的办法来做补充——9 个算法每人一票,投票达到阈值就算数。至于这个阈值,一般算 6 或者 7 这样,即占到大多数即可。

异常检测之Opprentice系统

作为对比,面对相同的问题,百度 SRE 的智能运维是怎么处理的。在去年的 APMcon 上,百度工程师描述 Opprentice 系统的主要思想时,用了这么一张图:

Opprentice 系统的主体流程为:

KPI 数据经过各式 detector 计算得到每个点的诸多 feature;

通过专门的交互工具,由运维人员标记 KPI 数据的异常时间段;

采用随机森林算法做异常分类。

其中 detector 有14种异常检测算法,如下图:

我们可以看到其中很多算法在 Etsy 的 Skyline 里同样存在。不过,为避免给这么多算法调配参数,直接采用的办法是:每个参数的取值范围均等分一下——反正随机森林不要求什么特征工程。如,用 holt-winters 做为一类 detector。holt-winters 有α,β,γ 三个参数,取值范围都是 [0, 1]。那么它就采样为 (0.2, 0.4, 0.6, 0.8),也就是 4 ** 3 = 64 个可能。那么每个点就此得到  64  个特征值。

异常检测之

Opprentice 系统与 Skyline 很相似

Opprentice 系统整个流程跟 skyline 的思想相似之处在于先通过不同的统计学上的算法来尝试发现异常,然后通过一个多数同意的方式/算法来确定最终的判定结果。

只不过这里百度采用了一个随机森林的算法,来更靠谱一点的投票。而 Etsy 呢?在 skyline 开源几个月后,他们内部又实现了新版本,叫 Thyme。利用了小波分解、傅里叶变换、Mann-whitney 检测等等技术。

另外,社区在 Skyline 上同样做了后续更新,Earthgecko 利用 Tsfresh 模块来提取时序数据的特征值,以此做多时序之间的异常检测。我们可以看到,后续发展的两种 Skyline,依然都没有使用机器学习,而是进一步深度挖掘和调整时序相关的统计学算法。

开源社区除了 Etsy,还有诸多巨头也开源过各式其他的时序异常检测算法库,大多是在 2015 年开始的。列举如下:

Yahoo! 在去年开源的 egads 库。(Java)

Twitter 在去年开源的 anomalydetection 库。(R)

Netflix 在 2015 年开源的 Surus 库。(Pig,基于PCA)

其中 Twitter 这个库还被 port 到 Python 社区,有兴趣的读者也可以试试。

二、归因分析

归因分析是运维工作的下一大块内容,就是收到报警以后的排障。对于简单故障,应对方案一般也很简单,采用 service restart engineering~ 但是在大规模 IT 环境下,通常一个故障会触发或导致大面积的告警发生。如果能从大面积的告警中,找到最紧迫最要紧的那个,肯定能大大的缩短故障恢复时间(MTTR)。

这个故障定位的需求,通常被归类为根因分析(RCA,Root Cause Analysis)。当然,RCA 可不止故障定位一个用途,性能优化的过程通常也是 RCA 的一种。

归因分析之 Oculus 模块

和异常检测一样,做 RCA 同样是可以统计学和机器学习方法并行的~我们还是从统计学的角度开始。依然是 Etsy 的 kale 系统,其中除了做异常检测的 skyline 以外,还有另外一部分,叫 Oculus。而且在 Etsy 重构 kale 2.0 的时候,Oculus 被认为是1.0 最成功的部分,完整保留下来了。

Oculus 的思路,用一句话描述,就是:如果一个监控指标的时间趋势图走势,跟另一个监控指标的趋势图长得比较像,那它们很可能是被同一个根因影响的。那么,如果整体 IT 环境内的时间同步是可靠的,且监控指标的颗粒度比较细的情况下,我们就可能近似的推断:跟一个告警比较像的最早的那个监控指标,应该就是需要重点关注的根因了。

Oculus 截图如下:

这部分使用的 计算方式有两种:

欧式距离,就是不同时序数据,在相同时刻做对比。假如0分0秒,a和b相差1000,0分5秒,也相差1000,依次类推。

FastDTW,则加了一层偏移量,0分0秒的a和0分5秒的b相差1000,0分5秒的a和0分10秒的b也相差1000,依次类推。当然,算法在这个简单假设背后,是有很多降低计算复杂度的具体实现的,这里就不谈了。

唯一可惜的是 Etsy 当初实现 Oculus 是基于 ES 的 0.20 版本,后来该版本一直没有更新。现在停留在这么老版本的 ES 用户应该很少了。除了 Oculus,还有很多其他产品,采用不同的统计学原理,达到类似的效果。

归因分析之 Granger causality

Granger causality(格兰杰因果关系)是一种算法,简单来说它通过比较“已知上一时刻所有信息,这一时刻 X 的概率分布情况”和“已知上一时刻除 Y 以外的所有信息,这一时刻 X 的概率分布情况”,来判断 Y 对 X 是否存在因果关系。

可能有了解过一点机器学习信息的读者会很诧异了:不是说机器只能反应相关性,不能反应因果性的么?需要说明一下,这里的因果,是统计学意义上的因果,不是我们通常哲学意义上的因果。

统计学上的因果定义是:『在宇宙中所有其他事件的发生情况固定不变的条件下,如果一个事件 A 的发生与不发生对于另一个事件 B 的发生的概率有影响,并且这两个事件在时间上有先后顺序(A 前 B 后),那么我们便可以说 A 是 B 的原因。』

归因分析之皮尔逊系数

另一个常用的算法是皮尔逊系数。下图是某 ITOM 软件的实现:

我们可以看到,其主要元素和采用 FastDTW 算法的 Oculus 类似:correlation 表示相关性的评分、lead/lag 表示不同时序数据在时间轴上的偏移量。

皮尔逊系数在 R 语言里可以特别简单的做到。比如我们拿到同时间段的访问量和服务器 CPU 使用率:

然后运行如下命令:

acc_count<-scale(acc$acc_count,center=T,scale=T)

cpu<-scale(acc$cpuload5,center=T,scale=T)

cor.test(acc_count,cpu)

可以看到如下结果输出:

对应的可视化图形如下:

这就说明网站数据访问量和 CPU 存在弱相关,同时从散点图上看两者为非线性关系。因此访问量上升不一定会真正影响 CPU 消耗。

其实 R 语言不太适合嵌入到现有的运维系统中。那这时候使用 Elasticsearch 的工程师就有福了。ES 在大家常用的 metric aggregation、bucket aggregation、pipeline aggregation 之外,还提供了一种 matrix aggregation,目前唯一支持的 matrix_stats 就是采用了皮尔逊系数的计算,接口文档见:

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-matrix-stats-aggregation.html

唯一需要注意的就是,要求计算相关性的两个字段必须同时存在于一个 event 里。所以没法直接从现成的 ES 数据中请求不同的 date_histogram,然后计算,需要自己手动整理一遍,转储回 ES 再计算。

饶琛琳,目前就职日志易,有十年运维工作经验。在微博担任系统架构师期间,负责带领11人的SRE团队。著有《网站运维技术与实践》、《ELKstack权威指南》,合译有《Puppet 3 Cookbook》、《Learning Puppet 4》。在众多技术大会上分享过自动化运维与数据分析相关主题。

潘博文事件原文(潘博文神秘消失事件)

不存在的同学

2013年4月25日周四,我永远不会忘记那一天,以及只存在于我记忆里的那位同学,潘博文。

我写出来的这些事情,可能没有几个人会相信,包括家里人和朋友,他们说我因为学习压力受了刺激,甚至怀疑我精分,以至于高考后的一段时间,我都在对现实的深深怀疑中度过。

我是天津塘沽人,从小在海河边长大,当下作为沪漂在上海某互联网公司搞运维,过着995而索然无味的生活。今天8月18号,正好是我记忆中潘博文的生日,便来倾诉一下。

天津海河河畔

我高中在塘沽某以素质教育而闻名的中学,天津高考的竞争并不是太激烈,所以大家高三时没有太大的压力,那天距离高考还有43天,上午第四节课是高三的最后一节体育课,五一假期后课表还要做调整。

我们的体育课是走班上的,每个人可以选择诸如篮球瑜伽武术等项目,所以在自己的项目里会遇到其它班的同学。

我的项目是羽毛球,老师姓金,他和学生们最能打成一片,通晓日语和摄影,还是《游戏王》的铁杆粉丝。当天金老师跟我们说了几句道别的话,又录了一段高考加油的视频,就让我们解散自由活动了。一部分女生选择回教室复习,也有带羽毛球拍的留下来打球,毕竟高三遇上这样忙里偷闲的时光不容易。我也带羽毛球拍了,准备和同班的同学小温来一局,如果我能回到那一天,一定会狠狠抽自己一顿,然后回教室上自习。

一开始我们在甬道上打球,没十分钟觉得太晒,就准备找个阴凉地继续打,然后就走到了宿舍楼的前面,宿舍楼和食堂连在一起,自从全面走读之后很久没有住人了,10班的L君和潘博文在宿舍过道的树荫下打得正酣。

潘博文是我初中同学,初中在3班,都是英语课代表。L君就是潘博文介绍我们认识的。我们简单聊了几句,然后我和同学小温打,L君和博文继续打。后来小温嫌我手劲儿太大,换成我和博文打,L君和小温打。

后来博文把羽毛球打歪了,球歪着掉进了宿舍地下室露出地表的换气窗里面,主要是因为买了YONEX的专业用球,一个球就顶我早中的饭费了, 我做出了至今懊悔的决定——去捡球。

很多地下室都有这种半露在外面的换气窗

要捡球首先得进到宿舍楼里去,我们一开始不抱太大希望,但鬼使神差地那天楼门并没有上锁(平时都是用锁封死的),用手一推就开,里面一股凉风和发霉的味道扑面而来,潘博文主动提出去捡球,我也一口答应进去,L君比较好事儿一块跟过来,最后留下小温给我们看球拍。

推门进去就是一堵墙,墙上写着住宿规定,落款是03年,往左走就是一楼的宿舍,都是老式的木门,虚掩着。尽头是个洗漱间,弥漫着一种类似氨水的味道,楼梯间在一个阴暗的角落里。

进到楼梯间,里面不是很黑,正午的阳光正好能照进来。只是往下走的楼梯横七竖八地堆了课桌椅,看了有点发怵,我跟他俩说要不然不捡了,L君跟我说来都来了,他比较瘦,身子轻便,直接翻了过去,我就跟着绕过去,顺便给潘拉了把手,我们仨沿着没有护栏的水泥楼梯一直往下走,堆得东西多,花了大概一刻钟。

下到一半是个水泥平台,具体有啥也忘得差不多了,就记得地下一层还有往下的路,但是被好几个锁封上了,外围是个大厅,有个敞开的小门连着走廊,门的尽头有亮光。我们准备往前走,潘博文突然说他的钥匙掉在楼梯上了,要回去拿,我发觉有亮光应该是地下室朝阳的一面,就和L君进小门了。

L君有点害怕,我跟他说我带了手机,给他看在地下室我的小米2还有3G信号。我因为是学校门萨社(这个社已经没了)的社长,去年暑假的时候来过学校,有门卫处Z伯的电话,而且二姑父是W队的战友,实在被困住了还能打电话叫人。大不了领两张过失单(我们学校带手机被发现是一张,抽烟三张,积累三张过失单回家反省一天,五张得一进档案的处分),要高考了也不能把咱们怎么样。

L君跟我进去了,我当时也不知道门里面是什么情况,光在前头,但就是没有方向感了,想退后也没得办法,反正这里不是我们掉球的地方,我们转向了,跟地下停车场一样空旷,我当时也不是恐惧了,感觉热血上涌,跟L君说朝光跑,我们不知道怎么跑过去的,尽头是楼梯,记得我们看到亮光就连滚带爬地往上走。

我们从学校后门对着的那所小学的楼道里出来了,到室外的那一刻,我和L君顾不上什么了,大口喘气。旁边是一群小学生在出校门,现在应该是中午放学的时间,我们就顺着学生和家长的人流出门了,连午饭都没顾得上买,直接从后门回学校了。

那天的示意图,我的高中应该是全天津唯一一所不是正北正南向的学校建筑,哪怕海河教育园的新建的校区也没这么斜。

进班看见小温,他说看我和L君不出来,就直接把我的拍子带回班了,我问他潘博文的球拍呢(李宁的也挺贵)?他一脸疑惑地说潘博文是谁,我说就是跟咱们打球的10班那个啊,然后争执了一会儿,他一口咬定自己不认识潘博文,拍是我弄没的。

午自习之后,我去10班找潘博文,结果迎面碰上L君,他脸通红一脸激动地跟我说了一堆,特别大声就和嗷嗷叫一样,搞得楼道里的人都看着我们。我说到底怎么了,他冲我吼潘博文消失了,我心咯噔一下,说他不会在里面摔着了吧,L君当时眼泪都出来了,说他们都不认潘博文了,说L君神经病。然后年级组长X老师正好路过,以为我们俩吵架了,过来和事儿。10班里不断出来人说L君受刺激了可能中暑了,我问路过的一女生潘博文在哪儿,她跟我说L君中午回来一直说一个叫潘博文的人,可10班根本没有这个人,不知道搞什么鬼。

我听完赶紧下楼,去宿舍楼那里,结果宿舍楼的门和往常一样,加了把锁。我当时就软在那里了,头嗡地一下。下午第一节是化学,老师讲的我也忘了,只记得一句话都没听进去,第一节课下课去找了金老师,结果在10班那一栏根本没有他的名字,问他潘博文是谁也一脸懵。

我不想描述那个下午我是怎么度过的,只是小温坚持一下午没理我。晚自习时听班主任——一个中年男性语文老师说,10班有个人高考压力过大,说胡话被家长接走了,顺便讲了个冷笑话,说是让我们减压,说了没两句就又开始边讲题边扯了起来,一直扯到十天前湖人对勇士的比赛。

晚上回家的路上,本来想看手机登QQ,却发现手机莫名没电了,按照常理来说,任何手机的续航都没那么差回到家破天荒地开了一次电脑,结果发现L君被踢出年级群的信息,他貌似发了一百多条关于潘博文的信息,也回了我99+。我颤抖着搜了潘博文,没有这个好友,当时我几乎要晕了。我姐看到我开电脑,说她要用CAD,我就拿着小米充电去了。

开机,时间显示的是1970年1月1日11:52,我现在还记得那个画面,不过连上wifi之后时间正常了,QQ超时重登,无记录。相册大部分内容都损坏了,除了贴吧保存的图片。我不知道我怎么度过的那个时刻,之后这部小米2就一直无法使用相机闹钟和指南针。报修之后门店说陀螺仪损坏,镜头没事儿,相机我高考后刷了个MIUI V5之后倒是能用了。

这些聊天是最近的

以前的同学们依然对潘博文毫无印象

潘博文这个人,就像没有存在过一样,除了我和L君之外,所有人都认为他不存在。我还记得他的学号,但再看到花名册的时候,他们班整个学号都前移了一位。

我在晚饭的时候把这事儿说了,结果得来的是一句“你没发烧吧”,后来周末被亲姐(天医的硕士)拉去医科大医院心理科看医生,我还能清楚地记得那天是一位姓杨的大夫接待的我,最后他让家里别放在心上,我就是高考压力大。

我之后的反应倒是平淡极了,只是不敢往十班门口凑,10班班主任也找过我,告诉我L君情绪不稳定,不要贸然跟他接近,L君闹腾到二模也消停了。

高考,以为自己能上天南大的我,理综雪崩,物理没及格。凭着120+的语文和140+的数学(天津卷比全国一简单)去了西南的一所211.小温去了北京学土木,L君从211的水平掉落到天津理工,大二的时候就失联了,只是偶尔在朋友圈发代购,听周围人说他被送去土澳深造了,老师们都当他高考之前心态爆炸的反例,自从此之后,每届高考之前开放松解压的年级会。潘博文如果还“存在”着,应该是C9的水平吧。

我记得潘博文的小学——新港四小,初中——塘沽二中。他的生日——1996年8月18日,甚至他家的住处,新港街道的某个老社区,他约好高考之后跟我玩的游戏《伊苏四:塞尔塞塔的树海》,他喜欢徐良的歌,是泰达队的球迷,但我就是证明不了他存在。

后来,我发现了更多细思恐极的地方:

1.我记得小米推出过搭载WP8的手机,但事实并不如此。

2.我记得13年2月份《星游记2》开播,被誉为国产动画的高峰。因为要高考了没有追,但现在只有一个17年的《风暴法米拉》。

3.我记得天津大学和南开大学上小学时就在津南有校区,结果一查是近几年搬迁的。

4.我记得天津地铁9号线中间的几站是“塘沽——车站北路——远洋城——中心庄——钢管公司“而不是”塘沽——胡家园——中西村——钢管公司”

5.我记得我看过一部科幻/恐怖类型的电影叫什么闪电,好评度十分高,主角叫陈帆,他妻子叫戴琳。是王传君和邓家佳参演的,除了看的出戏之外故事十分棒,结果在豆瓣查并没有这部影片。

经其他网友提醒,这个电影应该是《球状闪电》,刘慈欣原著,网上显示还没拍出来

以下内容为2019.8.20更新:

我不是网络写手,就是一个码农,没必要在这里用我为数不多的双休长篇大论编一个故事来哗众取宠,更何况我已经两年没踏足天津,没必要写恐怖小说吓唬一群素不相识的人。

我也一度怀疑过自己得了癔症或者偏执等精神疾病,上大学和工作的这几年也约了不少心理医生,得出的结论都是心理压力大,我有段时间真的希望被诊断出什么来,但事与愿违。

我和潘博文的关系真的特别好,初中班主任姓刘教数学,我们俩都是英语徐老师的课代表,特别感激徐老师出色的教学能力对我英语水平的提升。初三的时候每晚都是我先送潘博文去浙小公交站等107,然后再回家。潘博文家住北仑里,中考后的暑假我去过他家,虽然不记得门牌号,但是依稀记得有一块新港路大队的路牌和十分高的电线杆,他家记得是一室一厅的,细节忘记了。

他父亲应该在国企,母亲在中原百货卖化妆品,因为送了我姐一套dior的彩妆,所以记得特别清楚。潘博文比较喜欢玩游戏,从胡侦探传说到老滚5我们玩了个遍,初二的时候我还送过他一张米米卡,当年赛尔号有个叫哈姆雷特的精灵,就是他拿我的号过的。

印象中潘博文的家附近

高中时他比较低调,依稀还记得他没进学生会,足球赛貌似参加过,不过具体的信息也握不住了。高一的时候有一回潘博文政治课写数学让老师发现了,还被拎出去数落了一顿,他跟我吐槽,所以现在还记得深。

他物理也不错,经常学老师用方言说话,掌心磁四指电拇指力,借了我一本《更高更妙的物理》,物竞用书落款还有他的名字,如果我能回天津,翻箱倒柜也要把这书找出来。印象最深的是11年清明节那天,我和潘博文一起去泰达足球场看了场泰达对墨尔本胜利队最后1-1平。

那天和L君出来之后也发生了不少诡异的事情,我记得当时三轮复习,数学有选修4-2讲矩阵和选修4-6讲数论,4-6的拉格朗日插值法我怎么也弄不清,数学老师还跟我说人傻一辈子事,你用不要的二项式除多项式就行。结果高考发现没有数论选择和矩阵大题还以为今年分布列换矩阵套路变了,结果我通过各种渠道得出一个结论,13年只有江苏和上海学4-2,4-6是全国任何一个地方都不学的!!!也就是说不可能是我记错了,因为我后来编程也用插值法,同事都是照着GitHub自学的,可是我又是从哪里学的???

潘博文身材偏瘦,戴眼镜,皮肤比较白。在我的记忆里沉淀了那么多年,连对他的印象都模糊了。你们可以说我是编的,可是我虚构这个人意义何在呢?如果我的文笔好到能去起点写文,我直接瞎编一个华夏国汉东省,起个龙傲天的名字直接在天涯贴吧开连载不就行了?

如果我在这里无中生友,必须得先架构一个不能矛盾的世界观体系,然后为了不露馅继续添加细节,我要是编的何苦把具体的地理信息数学知识点甚至直男不太懂的化妆品名都介绍一遍?潘博文是我朋友,我写出来什么都会让我感觉我在消费他,有的时候不知道是恐惧还是无奈了。

高考到现在,我不止一次陷入了对自己的深深怀疑,写出来就当树洞了。

以下内容为2019.8.23更新:

我明天去医院,之前几次就医都没有把这个事情原原本本地说出来,这次打算给医生看这篇文章。

联系L君了,明天医院看结果,谢谢各位,决定好好工作了。

以下内容为2019.8.24更新:

今天是8月24日,去了医院,医生根本不在乎这篇文章,建议如果这个事情不影响我生活,就不要去追究了。L君我觉得他不想再触及这件事情。答主周日上班,抱歉不能回复。有提出让我去潘博文家看看的,其实我高考之后路过那里很多回,只是不知道具体的位置罢了。至于初中毕业照我当然翻过,潘博文消失的当天晚上就翻了,合照里找不到他,高中毕业照是5月末照的。当年流行填写同学录,他那页应该在很靠前的位置,但是始终没有那一页。时间冲淡了别的情绪,我也无法还原当时的一举一动。

以下内容为2019.9.22更新:

今天是周末,川沙外面天雾蒙蒙的,下着雨,风也很大。不由得想起我的朋友潘博文,我不知道他身在何处,或者评论区让我怀疑他是我为了排忧解闷臆想出来的人,我不想过度纠结。

我还能回忆起的就是潘博文老家在河北唐山迁西,因为他跟我说过家乡的水下长城和喜峰口这两个比较著名的景点,之前追过名叫《明末边军一小兵》的网文,对喜峰口、冷口、界岭口等蓟镇要塞印象很深。

平时开玩笑的时候,他就和赵丽蓉春晚还有相声《宇宙牌香烟》的推销员一个调。但是因为天津有几个地方也是说唐山话的,所以还不敢确定。

浙小公交站

我初中日常送潘博文回家的地方

至于潘博文的家,我绞尽脑汁也想不起太多细节,并不是我刻意隐瞒,这段记忆不知为何一直都很模糊,好像被什么擦去了一样。如果我真的编故事,肯定要对他家大书特书。一室一厅的华北普通老式小区,当年盖的楼基本都一个样子,仿照苏联形式。我和他放学不顺路,我住火车站附近,他在港口附近,不过因为我家离学校近所以为了聊游戏能每天送他去车站。

评论区找出了不少信息,小学初中高中大学的校友都出来了,不过我不能说得太详细,和公司里同事知乎互关的有很多,已经有人开玩笑问这篇文章是不是我发的,如果领导和HR看到了,对我日后的工作可能有影响。

最后附一张最近和高中同学的聊天记录。

后续发酵

以下网友热议

关于后来解释澄清的版本,还有L君不是同学是熟人,小温是圈里的其他人,这个解释似乎彻底指向了编故事,而不是精神疾病的范畴了,不知道是真是假。

说一说✏️

笔者我的看法 [灵光一闪]

这篇网文能够引起轰动,第一就是感同身受的真实性,其次,网友们心中曾有属于自己的秘密和难以理解的过去,有的网友希望现实里有戏剧性的事件发生。这没有什么不好的,在这棱角分明的现实世界中,人们依然需要有自己想象的空间。这个13亿多人口的中国,不可能没有一些离奇古怪的事情来润色,不是每个人心中的故事和秘密都能写的详细和清晰,迷信和幻想总能揭示人们心灵最需要探知的奥妙。

如果有一天在我们的身上也发生了解释不清楚的事情,那么别人会不会当成故事一样听呢?

这个事你怎么看?写出你的看法感受,对比你作何评价?

专访运维与人才外包专家黄琨:运维工作最大的挑战是什么?

运维是一种实操类的技能,其经验积累很大程度上来自于真实项目的积累。因此,对于运维领域的新人而言,如果他们工作的环境并没有提供一个良好的平台,就经常容易陷入困惑。 另一方面,那些在大型企业、外企工作过很长时间的资深运维工程师,他们当中的很多人都愿意分享自己的经验,并为广大运维工程师们提供一些指点。黄琨就是他们当中的一员。以IT运维外包项目的形式,一方面完成企业的生产需求,另一方面提供给缺乏经验的运维们一些锻炼的机会,正是黄琨与他的朋友们建立荣新IT培训中心的目的。 今天,我们邀请到了黄琨老师到场,谈谈他自己的运维成长经历及挑战。 黄琨,曾任知名外企SP公司运维经理,多年网络应用架构设计及运维管理经验。涉及技术包括:Linux/SUN小型机/Windows运维、互联网应用平台架构设计、 Oracle/Mysql 数据库、开源分布式集群架构设计及调优、网络及安全设备架构及管理。现在任职于荣新IT培训中心,担任IT运维外包项目总监、企业人才外包项目总监。 51CTO:您是什么时候开始做的运维?对工作一开始的几年有哪些深刻的记忆?黄琨:我2002年之前的时候主要是从事系统集成项目的设计实施工作,之后进入石景山区信息中心负责全区各行政单位的网络、中心IDC的维护工作。那个时候的工作有苦有乐,最重要的是能够学到知识,有一个好的平台对我来说非常重要。当时正处于互联网业务发展的初期有些企业的业务平台也陆续在中心IDC上线,为我的技术学习提供了良好的氛围和实验条件。 记忆最深刻的就是有一次中心机房要从教委迁移到区政府信息中心,那次迁移工作量相当大,包括:网络设备、服务器、新老应用割接、新设备上线、对网络和应用层做了链路冗余以及高可用等,让我有机会一次性的把之前做过的实验用到了真实的工作中。这次工作厂商方面以及中心骨干工程师都给予我大力支持,让我深为感动。当时网络设备用的是CISCO的6500系列两台做的冗余,汇聚层和接入层也都是cisco的产品35系列和25系列;服务器400台左右,安全方面有天融信的防火墙、还有NIDS;规模大任务重,中心系统组负责人也是现在我的好朋友张琦老师对我的帮助非常大,从原中心业务系统整体梳理、备份、链路及服务割接工作的计划设计、各别服务系统更新、重要服务应用高可用的设计、双因素认证系统等等工作帮助我整理的井井有条,工作非常顺利,当时还获得中心同事的表扬,至今记忆犹新。 黄琨:现在和白璐、杨晨等开源和网络方面的精英一起开办了一家专门培养运维人才的培训机构荣新IT培训中心,经过这几年的努力,培训中心的规模已经扩大了5倍。 我现在任CTO的职位,一方面负责企业项目及运维外包服务的工作,为企业提供优良的技术服务之外将前沿技术引入到培训中来;另一方面负责培训学员到企事业单位的人才输送工作。 黄琨:本人现在主要负责:1.IT运维外包项目计划、项目方案设计监督、估算、管理、跟踪项目进度;2. 企业人才输送,组织技术指导,收集问题回馈,协助教学部形成教材;3.Linux等相关运维人才市场的动向监控。 运维一线现在已有600以上荣新学员,我也描述一下他们刚入行时候的工作内容吧:1. 快速分析整理公司业务及平台设计逻辑架构,缓存、应用、数据库、网络设备及其他设备的运作原理;2. 平台各层面监控,避免监控死角,实时了解平台各层应用的运转情况;处理突发问题,迅速做出问题响应,做好问题处理分析报告为后续自动化运维设计作补充;3. 平台代码更新,根据平台规模设计部署更新源资源下载服务、补丁批量更新机制;4. 配合运维经理设计实现运维支撑系统,包括系统监控、报警、管理功能;实现数据图形报表、整合手机短信、邮件、声音报警功能,根据监控排障反映上来的问题不断完善自动化运维机制;5. 黄琨:运维这个工作所涉及的内容多,工作范围又处于企业生产平台,任务重压力很大。 本人认为挑战主要分为技术和沟通两方面,当然由于我现在从事培训和运维外包工作,所以另一个转型的挑战:1、技术方面的挑战是运维工作的职责体现出来的,简单的说产品从需求收集、开发及网络系统架构设计、开发测试阶段、产品上线联调、问题反馈、正式商用后运维阶段等等,因篇幅有限我无法说得太详细,这些工作运维都需要跟下来。前几项工作中如果没有搞清楚产品的技术细节(比如:软/硬件资源评估确定硬件采购需求、平台性能的评估、服务性能调优安全加固、根据应用对服务器系统层的优化等等),将直接影响最后运维工作的正常开展。 从我看来,由于生产平台是企业的命脉所以运维工作上没有最大的挑战只有不断地挑战,例如平台上线后如果出现了瓶颈问题那么就需要快速锁定问题排查瓶颈,在最快的时间解决,尤其对于做互联网应用的企业,用户体验最重要,三天两头出问题,用户就会流失,企业利益就会受损。2、沟通方面的挑战。一个合格的运维工程师不但工作要做好,与本职工作职责在一条链上的部门同事之间的沟通也至关重要,直接制约工作的效率与结果。比如平台运行中遭遇问题,经过排查也锁定了,但是之前与同事沟通不畅造成问题解决滞后,这个影响很大。 当然很多企业非常重视产品上线后的问题响应,从人力上设定了绩效,从技术上利用内部工单来配合解决,效果也是非常显著。不过制度始终是需要去遵守的,是死的,工作的人是活的,所以人与人之间的有效沟通也是非常重要的一项必修课,这对于运维工作人员来说是挑战,处理不好经常出现由于部门间工作性质不同带来的信息孤岛和沟通鸿沟。3、最后一点,我希望将Linux高效运维 黄琨:就运维所关注的技术领域来说,我只想用一句多而杂 来形容。因为运维是保证企业业务平台稳定运行的基石。从开发,测试,整个平台架构中的缓存、应用、中间件、数据库、网络方面数据传输效率、平台监控报警、硬件层面等等方面都需要了解并且深入。 另外,我们已经成立的的、定期的Linux运维工程师沙龙活动,最近连续3期都是CDN网络加速的内容,以一个视频网站为原型进行细致的运维探讨。这里也希望51CTO的网友有空和我们一起来将沙龙的范围扩大。 黄琨:其实技术和业务是分不开的,关注互联网行业/3G融合之后杀手级业务相关技术是我的主攻目标,并且在这个范围内提高自己的技术,能够为未来的发展提供一个很好的路线引导。

IT运维的管理现状

伴着IT在企业中的作用日益明显,IT建设和IT运维同时成为了企业效率的加速器。同时,计算机硬件系统和软件系统的运维已成为了各行各业单位,尤其是信息服务部门普遍头痛的事情。本文以下内容总结几个头痛的主要因子,拿出来供大家参考指导,并接下来的系列课题中会对针对这些现状提出改进措施 。
现状一:IT运维人员成本偏高
据专业调查,大多数CIO表示最关心的是IT运维成本过高。原因是在过去的5年中,很多企业都实施了很多IT系统,使得IT运行越来越复杂,也越来越难管理。同时,其中有50%的受访CIO认为IT运维成本过高的一个原因是IT运维的自动化做得还不够好,依靠手工流程来管理,不但使到运维效率不高,而且人力成本更是花费惊人。
同时,另一家国际知名调查机构Gartner调查发现,在IT运维成本中,源自技术或产品(包括硬件、软件、网络等)成本其实只占20%,而流程维护成本占40%,运维人员成本占40%。流程维护成本包括日常维护、变更管理、测试成本等;人员成本包括训练、教育、人员流失、招聘成本等。
从图中,我们可以看出, “流程维护”类和“运维人员”两者都与软性方面的成本相关非常紧密。而且三者的关系可以用下图来表示:
备注:C类成本的大小很大程度取决于B和D类。
现状二:处在“救火式”的IT运维控制
国内在IT运维过程中,IT员工大多数只是处在被动低效率手工救火的状态,只有当事件已经发生并已造成业务影响时才能发现和着手处理。这种被动“救火”会导致:①.IT运维人员终日忙碌,IT运维人员日常大部分时间和精力是处理一些简单重复的问题;②IT运维本身质量很难提高;③再加上故障预警机制的不完善,往往是故障发生后或报警后才会进行处理,不但事倍功半而且故障还常常会出现恶性连锁反应;④IT部门和业务部门对IT运维的服务满意度都不高。
现状三:简单的自动化程度起了“反作用”
尽管IT运维管理的技术在不断进步,但实际上很多IT运维人员并没有真正解脱出来,主要原因是自动化不高而导致的。技术虽然能够获取IT设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起根本没法判断问题的根源在哪里。还有,许多企业的更新管理绝大多数工作都是手工操作的。即使一个简单的系统变更或更新往往都需要运维人员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行,占用了大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。
就如图中一样,所有信息(杂乱)都从各个地方被收集到了这个圆圈(容量不变)里面,信息进去后不能主动流出来。可能会出现的情况:这个圆圈容器装满后会爆破,或者是溢出来;圆圈的运行速度会慢慢降下来,从而导致信息输入的速度也会变慢。
现状四:本是同家兄弟,却不经常来往
这个问题主要是发生在拥有许多子公司的企业,每个子公司的系统都是独立的,下面主要以国内银行业为例。以前国内的银行业没有搞集中建设,每家银行的各个地方分行都单独建设和维护自己的核心业务系统,都各自配备开发人员和维护人员。
同时在运行维护方面,对故障的解决,完全依靠运行维护部门的工程师的上门服务。不管问题大小,工程师都要来回去现场解决。遇到一些技术难度大的问题,如果工程师的水平高,处理起来就快;如果水平低,甚至花上几个小时,可能也解决不了。
虽然国内银行业的IT运行维护管理水平,有点接近国外80年代末90年代初银行业的水平,银行IT结构上都采用了大集中模式。从硬件设备上来看,国内银行不比别人差,甚至还有些领先,但IT运维管理还没达到国外当时的水平,尤其是呼叫中心、客户服务方面。”
结束语
从上面三个现状来看,主要是有关软性方面的。的确如此,国内借着近十几年高速发展,硬件方面的发展取得了重大进步,某些方面的水平甚至是超过了国外的水平,并且IT硬件的生产厂商也是出现了很多与国外厂商同等秀舞的水平,如华为、中兴等。但是往往是硬件易学,知识技巧难寻。这不仅与国内教育环境有关外,还与知识经验的继承有关。
管理要动态匹配业务需求
IT部门还会经常联合HR、法务等部门一起做跨部门的沟通,面对的对象是各部门的管理层,让他们理解企业的IT策略。

关于运维平台的真实事件和运维事件报告的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 运维平台的真实事件的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于运维事件报告、运维平台的真实事件的信息别忘了在本站进行查找喔。
上一篇:it运维投标书(运维投标文件)
下一篇:性能测试 手机(手机性能测试怎么测)
相关文章

 发表评论

评论列表