运维事件记录表（运维记录表格）

来源网友投稿 1134 2023-02-09

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本篇文章给大家谈谈运维事件记录表，以及运维记录表格对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。今天给各位分享运维事件记录表的知识，其中也会对运维记录表格进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、求输电线路运维记录表格，详细如图
2、ceph问题解决运维记录
3、运维工程师行为检核表怎么填写
4、运维日志

求输电线路运维记录表格，详细如图

输电线路管理运维主要包含输电线路巡视、输电线路缺陷管理及输电线路故障处理：
输电线路巡视包含：
一、巡视类型
（一）定期巡视：经常掌握线路各部件运行情况及沿线情况运维事件记录表，及时发现设备缺陷和威胁线路安全运行的情况。其目的在于经常掌握线路各部件运行状况及沿线情况运维事件记录表，并搞好群众护线工作运维事件记录表，定期巡视由专责巡线员负责运维事件记录表，一般每周期进行一次，其它巡视由运行单位根据具体情况确定，也可根据具体情况适当调整，巡视区段为全线。
（二）故障巡视：是为运维事件记录表了查明线路发生故障（接地、跳闸）的原因，找出故障点并查明故障原因及故障情况，故障巡视应在发生故障后及时进行，一般巡视发生故障的区段或全线。
故障巡视中，巡线员应将所有的巡视区段全部巡完，不得中断或遗漏，对所发现的可能造成故障的所有物件均应搜集带回，并对故障现场情况做好详细记录，以作为事故分析的依据和参考。
（三）特殊巡视：是在气候剧烈变化（大雾、导线覆冰、大风、暴雨等）、自然灾害（地震、河水泛滥、森林起火等），线路过负荷和其它特殊情况时，对全线某几段或某些部件进行巡视，以发现线路的异常现象及部件的变形损害。特殊巡视根据需要及时进行，一般巡视全线、某线段或某部件。
（四）夜间、交叉和诊断性巡视：是为了检查导线的连接器的发热或绝缘子污秽放电情况。根据运行季节特点、线路的健康情况和环境特点确定重点。巡视根据运行情况及时进行，一般巡视全线、某线段或某部件。
（五）登杆塔巡查：是为了弥补地面巡视的不足，而对杆塔上部部件的巡查。
（六）监察巡视：运维检修部及以上单位的领导干部和技术人员了解线路运行情况，检查指导巡线人员的工作。监察巡视每年至少一次，一般巡视全线或某线段。

ceph问题解决运维记录

1、如何导出导入osdmap

1.1先停掉坏的osd,以及一个好的osd(因为ceph-objectstore-tool执行时需要停止osd),然后执行导出导入即可

命令例子：其中84是好的osd,85是有问题的osd

ceph-objectstore-tool --op get-osdmap --epoch 145039 --data-path /data1/ceph-osd/ --journal-path /var/log/ceph/ceph-84/journal --type filestore --file osdmap145039

ceph-objectstore-tool --op set-osdmap --epoch 145039 --data-path /data2/ceph-osd/ --journal-path /var/log/ceph/ceph-85/journal --type filestore --file osdmap145039

PS：其中145039为对应的版本号，data-path与journal-path填写自己osd对应的路径

2、找到正确的epoch版本

这个要通过报错的osd日志查看，在启动的时候，osd会加载一个epoch版本A，这个版本是它正在执行的，缺少的epoch版本在它之前。然后在 dump of recent events中发现已经执行的epoch版本B,以及ecoch版本C。将在max(B,C)到A之间的版本都导入一遍（也可以导入一个版本，启动一次观察，就是太麻烦了）。我日志中A=145068,B=145011，C=145012,所以我把145013到145067之间所有的ecoph版本都导入进去了，结果正常启动了。我的日志入下图

1、产生原因：

2个osd之间的osdmap版本如果相差过大(相差可能在50左右)，会导致2个osd通讯的时候报wrong node。如果偶尔出现一次wrong node，那么问题不大，因为osd某个操作卡主了，然后恢复获取了最新版本的osdmap。如果osd日志一直在报，说明有osd同步osdmap出现问题，会导致osd down掉，心跳超时（可能），甚至出现osd大量吃内存，导致服务器挂掉。日志如下：

2、查看osd的osdmap版本

通过命令查看：ceph daemon osd.xx status ——xx标记对应的osd编号

命令结果例子：

{

    "cluster_fsid": "df181181-2154-4816-a2b7-d6eae79980fb",

    "osd_fsid": "d5edacd3-cee7-45eb-90df-e381d8684dfb",

    "whoami": 15,

    "state": "active",

    "oldest_map": 92570,

    "newest_map": 158146,

    "num_pgs": 2105

}

其中newest_map表示osd的最新版本号

3、查看集群的osdmap版本号

命令：ceph -s

这里：178170时最新版本号

4、确定osd版本是否有问题

多次间隔执行命令ceph daemon osd.xx status 查看osd版本号，正确状态如下：

4.1、查询出来的版本号一直保持跟集群版本号一致

4.2、小于集群版本号，但是在不停增大，最终会达到集群版本号

5、出现osd不更新osdmap解决办法

到目前为止，我没有找到osd不更新osdmap的根本原因，我使用过ceph daemon osd.xx dump_blocked_ops 查看是否有阻塞的操作并解决阻塞，但是依然不行，即使返回没有阻塞，还是不更新。可能可以让osd重新更新的方式：

1、将对应的osd out出集群（osd还是up的），过一阵观察一下版本号（我的就是这样回复的）

2、重启osd

1、问题日志
2、解决方式：

1、检查服务器时间是否一致

2、检查集群中的keyring与本地osd的keyring是否一致:

使用命令：

ceph auth list从mon中获取所有osd的keyring,

cat /var/lib/ceph/osd/ceph-xx/keyring获取本地osd的keyring
3、去掉验证，重启所有的mon、osd，修改ceph.conf中的如下参数为

auth_cluster_required = none

auth_service_required = none

auth_client_required = none

1、问题日志

2、解决方式

1、查看服务器时间与服务器网络（我的不是这个问题）

2、一般心跳超时是其他问题引起的，这里可以先调大心跳超时时间（我调大了心跳超时，解决了其他问题之后，就没有心跳超时了），修改配合文件ceph.conf的参数

mon_osd_report_timeout = 1800

filestore_op_thread_suicide_timeout = 1800

filestore_op_thread_timeout = 600

osd_heartbeat_grace = 600

osd_op_thread_suicide_timeout=1800

osd_op_thread_timeout=36000

这个配置可以先放到[global]，等解决了问题，在去掉，也可以根据实际情况，自己调整参数

1.查看日志查看osd卡在哪里

日志调整级别：修改配置文件ceph.conf参数，添加debug_osd=10（15/20），数值越高，打印越多。如果已经启动osd,想更改日志级别，可以通过命令：ceph tell osd.xx injectargs --debug-osd 5

2、根据日志信息解决问题

我是卡在了load_pgs上，因为整个集群状态不对，而pg数量又很多，加载很慢，这时候需要考虑服务器压力，可以一个一个慢慢启动，不要一下子启动完。

1、问题原因

incomplete状态表示：Peering过程中由于无法选出权威日志或者通过choos_acting选出的acting不足以完成数据恢复，（例如针对纠删码，存活的副本数小于k值）等，导致Peering无法正常完成。即pg元数据丢失，无法恢复pg状态

2、解决问题

1、使用ceph-objectstore-tool工具将incomplete状态的pg标记为complete

2、操作步骤：

   操作前提：设置集群flag:noout nodown noup noin PS：这里的目的是为了不让pg分布变化，我因为osd都起来了，只设置了noout nodown

第一步：通过命令ceph pg dump_stuck |grepincomplete incomplete.txt 从集群中导出incomplete状态的所有pg

第二步：通过第一步知道了pg所在的2个osd在哪里，stop这2个osd

第三步：对这2个osd上的pg通过命令做标记，命令如下

ceph-objectstore-tool --data-path /data4/ceph-osd/ --journal-path /var/log/ceph/ceph-15/journal --type filestore --pgid 9.ea8 --op mark-complete

ceph-objectstore-tool --data-path /data8/ceph-osd/ --journal-path /var/log/ceph/ceph-91/journal --type filestore --pgid 9.ea8 --op mark-complete

第四步：启动这2个osd(启动顺序没有关系)

第五步：观察集群中incomplete是否少了

第六步：重复第二步以及之后的操作，直到incomplete没有

3、特别说明

3.1、标记complete的过程，可能给导致集群degraded、misplaced增加，这是正常的

3.2、原因：因为我在标记的过程中，缺少了导入导出pg步骤。我这里没操作导入导出是因为pg数量有点多，而且pg比较大，导入导出会让2个osd停太久了，而且我觉得让集群自己恢复比较好

3.3、导入导出pg命令:

ceph-objectstore-tool --data-path /data3/ceph-osd/ --journal-path /var/log/ceph/ceph-2/journal --type filestore --pgid 4.15d5 --op export --file /data10/55/pg4.15d5

ceph-objectstore-tool --data-path /data8/ceph-osd/ --journal-path /var/log/ceph/ceph-5/journal --type filestore --pgid 4.15d5--op import --file /data10/55/pg4.15d5

选择一个osd为主，另一个为副，将一个导入到另外一个pg，导入导出需要停止osd。以上是将osd.2中的4.15d5导入到osd.5中

1、如果能重启对应pg的osd,那是最好的，问题自然解决

2、如果osd对应的数据盘损毁或者其他原因无法启动这个osd

  第一步：将这个osd删除，命令

ceph osd crush reweight osd.xx 0

ceph osd out osd.xx

ceph osd crush remove osd.xx

ceph osd rm osd.xx

ceph auth del osd.xx

第二步：清理当前osd的硬盘或者新加一个硬盘

  第三步：新启动一个编号相同的osd

第四部：重复上面的操作，处理掉所有有问题的osd，如果还有down，没事，等集群自己恢复处理（我就是启动了一个新的osd,有pg处理incomlepte+down，我标记完了incomlepte，down就自己消失了）

1、原因

这个状态的PG没有被 ceph-osd 更新，表明存储这个 PG 的所有节点可能都 down 了。拥有 PG 拷贝的 OSD 可能会全部失败，这种情况下，那一部分的对象存储不可用， monitor 也就不会收到那些 PG 的状态更新了，这些pg就被标记为stale

2、解决方法

第一种：osd down了之后能正常起来，那只要启动

第二种：

1.使用命令ceph pg dump |grep stale找出stale的pg

2.使用命令ceph pg force_create_pg $pg_id,这时pg状态变为creating

3.重启集群中所有的osd

3、特殊说明

我当时是第二种情况，然后我按上面的步骤操作了。结果所有的osd启动都卡主了。我猜测可能原因：当时我force_create_pg的数量有3000个，这个数量有点多，所以osd就大量卡住了，很久很久才能启动，可能有几个小时。所以这个操作要慎重，建议如下

1、这个stale的pg最后处理

2、一次不要force_create_pg太多，osd重启时，一个重启成功之后，在重启另一个

这个比较简单,直接执行命令：ceph pg repair $pg_id 修复

说明集群中osd有问题，需要解决osd问题，我就是有3个osd问题，我out了这3个osd，这2个状态就很快消失了

1、问题发现：ceph -s 或者mon进程死掉看到日志

2、产生原因

产生了大量的epoch，导致mon的store.db的数据极速膨胀。这个是我集群出现问题之后才出现的。我之前集群正常时没有这个现象。不知道等集群正常之后，会不会自己恢复正常。

3、解决方法

第一种：对数据进行压缩，使用命令 ceph tell mon.ceph163 compact (ceph163是我mon的名称) 。

第二种：使用ceph-mon -i HOST --compact进行压缩启动，这里的host我使用的是ceph163，主机名称

说明：不管使用哪一种，都要注意一点：操作压缩时，硬盘都会先扩大然后再缩小的，所以要留足空间。第二种的优势在于可以使修改ceph.conf中的参数mon_data=/data10/ceph153路径生效。我后来的mon数据太大了，我就更新路径到了数据盘：只要把对应的mon数据存数据mv到其他目录即可

第三种：等集群正常了，修改mon的配置参数试试（未验证，参数可以调小一些）

  mon_min_osdmap_epochs=500

mon_max_pgmap_epochs=500

mon_max_mdsmap_epochs=500

4、特别注意：

默认当mon所在存储应硬盘剩余5%空闲时，mon进程会自杀。

将对应osd节点设置为out即可(osd进程依然存在)，它会自动移除数据并把对应数据盘的数据删除，等到数据移除完毕，正常关闭删除osd即可

命令：ceph osd out osd.xx

当需要迁移服务器，需要关闭集群时，先设置ceph osd set nodown ceph osd set noup ceph osd set noout ceph osd set nobackfill ceph osd set norecover 保持集群不变，然后关闭各个osd,关闭mon,关闭rgw。

ceph osd set norebalance

——禁止集群pg做从均衡，当出现问题时，可以设置，用于排查问题

ceph osd set nobackfill

——禁止修复数据 backfill，当出现问题时,我们暂时不想修复数据，可以使用，配合nobackfill 一起使用

ceph osd set norecover

——禁止修复数据 recover，当出现问题时,我们暂时不想修复数据，可以使用，配合nobackfill 一起使用

ceph osd set nodown

——当集群出现问题，osd一会儿up，一个down的时候，可以使用这个命令，禁止osd down

ceph osd set noup

——当集群出现问题，osd一会儿up，一个down的时候，可以使用这个命令，禁止osd up

ceph osd set noout

——禁止集群中的osd自动因为长时间down，而out

ceph osd set nodeeep-scrub

——不做深度处理取消使用对应的unset即可，比如ceph osd unset noout

ceph osd out osd.xx 设置单个osd的状态为out

ceph osd in osd.xx   设置单个osd的状态为in

ceph osd down osd.xx  设置单个osd的状态为down

ceph tell osd.xx injectargs --debug-osd 20 实时修改osd.xx的日志级别，不需要重启osd

ceph tell mon.xx injectargs --debug-mon 20 实时修改mon的日志级别，不需要重启mon

ceph tell osd.* injectargs --osd_recovery_sleep 1 单位秒，刚开始设置为1，怕服务器有压力，观察之后可以去掉设置为0

ceph tell osd.* injectargs --osd_max_backfills 1 调整恢复线程数，可以根据实际情况调整

ceph tell osd.* injectargs --osd_recovery_op_priority 60 调整恢复线程的级别

ceph daemon osd.xx status 查看osd.xx的状态，主要看osdmap版本号

ceph pg dump 查看所有的pg信息

ceph pg dump_stuck stale 查看pg状态为stale的数据

ceph pg dump_stuck inactive查看pg状态为inactive的数据

ceph pg dump_stuck unclean查看pg状态为unclean的数据

ceph -s 查看集群情况

ceph osd tree 查看osd状态树

ceph health detail 查看集群健康详情

ceph pg pg_id query 查看某个pg信息

ceph osd getmap -o osdmap.bin查看osdmap图

ceph-dencoder type OSDMap import osdmap_197 decode dump_json 将osdmap导出成json格式

运维事件记录表（运维记录表格）

运维工程师行为检核表怎么填写

1、列出观察项目。
2、列出行为目标。
3、依照逻辑组织目标行为。
4、设计记录表。
5、完善记录表格。行为检核表是针对于目前公司员工或者是职员的一些行为方式的约束。

运维日志

长久以来，日志管理都是IT运维工程师不可回避的工作，它不但可以跟踪IT基础设施活动，更是回答故障是否发生、如何发生、何时发生、在何处发生的最佳答案。

如果把运维看做是医生给病人看病，则日志就是病人对自己的陈述，很多时候医生需要通过对病人的描述中得出病人状况，是否严重，需要什么计量的药，什么类型的药。所以古人有句话叫对症下药，这个症就是病人的描述加医生的判断，在重一点的病在加上很多的化验。在医生看病时病人的描述和化验单上的数据对医生是非常重要的。同理日志在运维中的作用也是类似的，但非常不幸，日志在很多运维中被严重低估，直到磁盘空间不足的时候才想到，这有个大的日志文件把他删了，这样可以节省空间。

下面我们来看一下常用的监控系统，界面做的很漂亮，功能也很多，但是有个疑问就是你会天天盯着这个界面看吗?我感觉绝大多数人不会，很多人关注的是异常点，就是当系统有问题的时候，你告诉我哪里有问题，然后我在根据问题去分析，去处理，当然做处理的时候，这个系统就会用上了。

那上面这些内容和日志有什么关系呢?

日志本身是没有价值的，只有对日志进行分析加以利用的.时候才会有价值，日志中包含非常多的有用的信息，不光包括运维层面，还包括业务层面，安全层面。很多时候运维需要的是一个统一告警平台，但告警的依据绝大多少是对日志等进行自动化的分析得出的结论，所以说日志是很重要的。

什么是日志

简单地说，日志就是计算机系统、设备、软件等在某种情况下记录的信息。具体的内容取决于日志的来源。例如，Unix操作系统会记录用户登录和注销的消息，防火墙将记录ACL通过和拒绝的消息，磁盘存储系统在故障发生或者在某些系统认为将会发生故障的情况下生成日志信息。日志中有大量信息，这些信息告诉你为什么需要生成日志，系统已经发生了什么。例如，Web服务器一般会在有人访问Web页面请求资源(图片、文件等等)的时候记录日志。如果用户访问的页面需要通过认证，日志消息将会包含用户名。这就是日志数据的一个例子：可以使用用户名来判断谁访问过一个资源。通过日志，IT管理人员可以了解系统的运行状况，安全状况，甚至是运营的状况。

日志能做什么

在一个完整的信息系统里面，日志系统是一个非常重要的功能组成部分。它可以记录下系统所产生的所有行为，并按照某种规范表达出来。我们可以使用日志系统所记录的信息为系统进行排错，优化系统的性能，或者根据这些信息调整系统的行为。在安全领域，日志可以反应出很多的安全攻击行为，比如登录错误，异常访问等。日志还能告诉你很多关于网络中所发生事件的信息，包括性能信息、故障检测和入侵检测。日志会成为在事故发生后查明“发生了什么”的一个很好的“取证”信息来源。日志可以为审计进行审计跟踪。

从一条日志说起

111.88.155.166 - - [17/Dec/2015:13:06:05 +0800] "POST /login HTTP/1.1" 302 0 "http://secilog.abc.com/login?langType=zh" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36"

这是一条很普通的nginx中记录的日志，日志的详细内容可查阅相关文档。这里简单说明一下主要的内容。从日志中可以得到访问者的IP，访问的时间，时区，请求的方式，请求页面，返回状态，来源等等信息。仔细一看请求的页面/login就可以猜到只是一个登录请求页面。这条日志的重要含义是登录成功。

从这条日志怎么和我们关注的指标对应的，我们下面接着分析。

活跃用户数，活跃用户说一般是指同一天有多少老用户登录过系统。这个时候就会发现，刚才的登录日志中如果放到一天的统计中就可以知道，一天内有多少次成功等登录的次数了，但细心的用户可以发现，不准确，因为用户可以重复登陆，这就会造成重复，说的很对，那我们在细化一下，我们换个角度分析，一天内登录成功的不重复ip的数量。是不是更接近真实的结果呢，我感觉从量级和趋势上已经能说明问题了。

刷单用户这个没有标准的说法，我的理解是是同一个人为了某种目的大量注册了很多账号后，然后进行某种操作比如刷单等。这种行为很难100%杜绝，但从这条日志中可以得出一些有意思的发现。如果同一个ip一天登录成功次数过多，比如一天登录了一百次，每次间隔的时间都差不多，说明这个人有刷单嫌疑，可以先找出来然后再进一步的分析。

新增用户数的含义是一天内有多少注册成功的用户，这个时候可以类比登录日志，只要把登录日志的url换成注册日志的url就可以发现一天新增的用户数是多少。

同理恶意注册用户数也是类似的，一天同一个ip下注册成功的次数非常多。此ip恶意注册的可能性就很大。当然还需要进一步的分析，比如ip是否是一个大楼里面的出口ip，注册后此用户做了什么来判断。

从上面的分析可以看出举一反三，可从日志中可以看出运营中的很多内容，比如浏览商品的排行，用户访问时间，用户来源等等。

下面我们还从这条日志中分析一下安全的行为：

111.88.155.166 - - [17/Dec/2015:13:06:05 +0800] "POST /login HTTP/1.1" 200 0 "http://secilog.abc.com/login?langType=zh" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36"

这还是一条登录日志，唯一和上面登录日志不一样的地方是服务器返回值。一个是302，一个是200.有什么区别的，302的意思是服务器进行过页面跳转，200还是返回此页面，从中就可以理解，这是一条登录失败的记录。很好，有这条记录就可以发现很多的安全行为。

恶意密码猜测，可以理解同一段时间，用户大量的登录失败，返回了很多登录失败记录。从这条定义中就可以发现规律，我们把时间放大到5分钟，当5分钟内，同一个ip有超过20次以上的登录失败行为，基本上可以断定在进行密码猜测。当密码猜测有自动的也有手动的，如果区分呢。我们看一下这个内容"http://secilog.abc.com/login?langType=zh"，这个含义是post提交的来源是"http://secilog.abc.com/login?langType=zh"这个网页，也就是从这个网页发起的。如果这个地址不对，极有可能是用工具来进行暴力破解。

同理cc攻击就更容易理解了，同一个ip在很短的时间内访问了大量的请求，基本上可以认为是cc攻击。其他的webshell，sql注入等也可以从日志中分析出部分来，但不是太准确，因为日志中指记录get请求的参数，post参数正常是不记录的。

从上面的分析中可以得知，日志中还是有很多宝贵的东西在里面，只是我们没有发现。

; 关于运维事件记录表和运维记录表格的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。运维事件记录表的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于运维记录表格、运维事件记录表的信息别忘了在本站进行查找喔。

标签：运维方法数据告警平台

暂时没有评论，来抢沙发吧~

运维事件记录表（运维记录表格）

求输电线路运维记录表格，详细如图

ceph问题解决运维记录

运维工程师行为检核表怎么填写

运维日志

实时警报通知：微信告警通知的重要性解析

告警通知变得轻松便捷——微信告警接口指南

睿象云智能告警平台的分派策略