it基础架构运维（it运维管理体系）

来源网友投稿 1031 2023-02-09

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本篇文章给大家谈谈it基础架构运维，以及it运维管理体系对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。今天给各位分享it基础架构运维的知识，其中也会对it运维管理体系进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、(转)IT：从运维到运营
2、超融合基础架构和传统IT基础架构相比，最大的优势是什么？
3、互联网时代的网络自动化运维
4、IT运维管理：“真”价值究竟在哪里？
5、互联网化架构下的it系统运维有哪些难点

(转)IT：从运维到运营

https://mp.weixin.qq.com/s?__biz=MzA5MjIyNzQyNQ==∣=2656335028idx=1sn=fa3a89d46365f24056f6ac04a58c93c6scene=21#wechat_redirect

大多数ITOM领域的从业者，一直以来都约定俗成地把ITOM（IT Operation Management）翻译成IT运维管理，相应的也把IT Operations叫做IT运维。近两年来，开始有越来越多的人使用“IT运营管理”和“IT运营”这样的说法，对应的英文是一样的，但这里“运维”和“运营”是同样的意思吗？两者之间有什么异同？

关于这个问题，仁者见仁智者见智。有人认为其实运维就是运营，用个新名词只是哗众取宠的噱头而已；有人认为运维是面向IT设施的，运营是面向业务服务的；有人认为运维是关注IT指标，运营是关注业务指标的；甚至有人说，运维是“眼前的苟且”，运营是“诗和远方”:-)

总体来看，大多数人认为两者含义并不完全一样，很多人都认为IT运营比IT运维的层次更高，有些成熟度较高的大型IT组织已经提出并在执行“从IT运维到IT运营”的发展规划。但即使在提出这类理念和计划的组织内部，对于究竟什么是IT运维管理，什么是IT运营管理，也还没有非常清晰的分析和定义，更多的是将传统IT运维管理领域之外的一些新内容笼统的归到IT运营管理的部分里去。我在和某个正在执行此规划的IT组织中的某位高管交流时，他就提到：“From Operations to Operations？连定义都没搞清楚，怎么能成为指导方向和发展目标？”

他的问题让我这个ITOM的老兵也开始思考“IT运营”这个新“翻译”的真正含义，以及近几年来它日益流行的真实原因，在和许多同业交流之后，笔者在此分享一下我关于这个问题的一些想法和心得，作引玉之砖，希望能带来更多同业的讨论和指教。

首先，IT运维和IT运营，英文都是IT Operations，在老外来看，并无区别，是指关于IT运行的所有事情。而中文之所以有两种不同的翻译，是因为IT Operations包括的内容很多，IT运维和IT运营两种中文译法分别侧重其中某一部分的内容，假如归纳成一句话的话，可以说IT运维管理关注的是“活着”，而IT运营管理则有更高层次的需求，不仅要“活着”，还要“活得好”。

先看个实例，某大型数据中心IT服务能力的愿景是“以业务为中心，交付稳定、安全、高效的IT运营服务，构建业界领先的IT运营能力，支撑企业的持续发展和战略成功。”这个愿景中，“稳定、安全”就是解决活着的问题，属于传统IT运维管理的范畴，“以业务为中心”、“高效”、“业界领先”则属于如何“活得好”的范畴，更多的是IT运营管理的范畴。

能力建设是有循序渐进的过程的，任何一个组织，首先都要解决“活着”的问题，然后才有可能追求“活得好”，因此，过去三十年，在大多数IT组织面临IT设施规模快速扩张，IT应用数量不断增多，IT运行压力越来越大的挑战时，首先要确保IT系统“活着”，也就是能够持续“运行”，稳定“运转”，通过日常“维护”工作让系统少出故障，出了故障能快速“维修”，“维持”系统的正常“运转”。这个阶段把IT Operations翻译成IT运维，把ITOM翻译成IT运维管理，无可厚非。

IT运维管理阶段的关键词是“稳定”、“安全”、“可靠”，关注可用性指标（MTTR、MTTF、MTBF等）、可靠性指标（RTO、RPO）和安全合规。相应地，在技术、工具和流程上，都以稳定、安全、可靠作为最优先考虑的要素：

在以“活着”为主要目标，以“稳”为主要形态的IT运维和IT运维管理发展多年后，越来越多的IT组织开始走出这个解决基本生存需求的阶段，从“被动维持”走向“主动经营”，追求如何“活得好”，近十年来，APM、BSM、云计算、运维大数据等新的理念、技术和工具的出现、发展和变迁，都和IT正逐步开始从运维走向运营有密切关系，时至今日，从全局角度来看，可以说企业IT已经站在了从运维到运营的一个重要拐点上。

IT运营是建立在良好的IT运维的基础上的，没有“活着”，“活得好”就无从谈起。但怎样才叫活得好呢？换言之，IT运营追求的目标究竟是什么？比IT运维多了哪些东西呢？

与IT运维更多地是面向基础设施不同，IT运营更多的是面向业务、面向服务，本质上是面向人。我们说某个人活得好不好，如何判断呢？大多数人认同的马斯洛需求层次理论说，在解决了基本的生存问题和安全感之后，一个人要感觉自己活得好，是需要有社会认同和自我实现的。对于CIO来说，他所管理的IT组织假如能让三类人满意，我们就可以说这个IT组织已经从基本的IT运维阶段走到IT运营阶段，已经处在活得好的状态了。

哪三类人呢？

用户、老板和IT人。假如IT组织是一个独立公司的话，这三类人基本对应着客户、股东和员工，CIO如果是公司老板，就会知道其实这三类人是哪个都得罪不起的：客户不满意会流失，企业就没有生存之本；股东不满意会换人，说明企业没有竞争力；员工不满意会换地儿，企业就缺乏持久发展的能力。尽管行业特点和企业文化不同会带来优先级和侧重点的不同，但本质上，一个有长远发展前景的卓越公司，往往是做到了让客户、股东和员工都满意的公司。

IT运维阶段，IT组织更多地还是在解决三类人的基本需求，让用户能用，让老板批钱，让员工干活，当然也希望大家更满意，但受限于阶段性能力和各方面因素，先能保证这些基本需求就已经很不容易了，而做到这些，在相当长时间内也已经足够，主要因为几个原因：

因此，过去虽然IT部门提供的即使只是满足基本需求的服务，大多数情况下也并没有多大问题。但短短十年间，互联网和移动互联网大潮席卷世界的每个角落，每天用着微信滴滴淘宝携程的用户们的胃口已经越来越高了，过去能够忍受的一些小问题也已经变得忍无可忍了：

不知从哪天起，过去和企业IT八竿子打不着的“人家”一下子蹦出来，成了IT部门的变相竞争对手了，没抢走用户，但把用户满意度抢走了。更要命的是，随着云计算各种aaS的风起云涌，这些“人家”未来没准儿真的要来抢走用户了。假如IT部门不能与时俱进，还是停留在满足基本需求的运维上，而不主动向追求卓越的运营迈进，提供更有竞争力的优质IT服务，那就很可能会在几年后会碰到更大的挑战。

而在IT运营阶段，与IT运维阶段的关键词“稳定”、“安全”、“可靠”不同，关注的关键词变成了“体验”、“效率”、“效益”。回顾前面我们提到某大型数据中心的愿景中“以业务为中心”、“高效”两个运营关键词，其实“以业务为中心”就对应着“以用户为中心”，业务就是以用户为中心的吗，而用户关心的就是体验（稳定可靠也是体验的一部分）。“高效”则包含着高效率和高效益两个含义，一个关注敏捷性，交付速度、响应速度，一个关注成本收益，关注服务获取效率。

（假如说IT运维以“稳”为主，那么IT运营则以”敏“为主，在技术架构选择和IT管理流程和系统的建设上面，IT运营阶段都和传统IT运维阶段的关注重点有所转变，从而带来了新旧架构、新旧工具、新旧方法并存甚至交汇的复杂情况，Gartner在提的Bimodal，联想所说的双态IT，也都在反映这种状态。）

让我们围绕三类人的需求简单看看IT运营比之IT运维阶段要面临的新挑战，以及应对挑战在出现的一些新的理念、工具和技术：

让用户满意

用户大致有两类，个人用户和业务部门：

个人用户，不论是内部用户还是外部用户，更关心的是体验，体验主要是易用性、容错性和响应速度；要提升体验，对于IT运营管理领域就带来了新的要求，要在传统的设备和组件监控的基础上，增加端到端的用户体验感知能力、应用性能的深入探测和分析能力、应用及系统性能瓶颈的发现和优化能力。

越来越多IT组织开始关注用户体验，从而纷纷部署包括外部模拟仿真探测、流量数据分析、日志数据分析、嵌码采集探测等各种针对应用性能管理的手段工具，造就了近年来APM市场热度飙升。

这些采用不同手段的APM工具虽然有功能重叠的部分，但各有其侧重点，多种工具的部署能带来数据和功能的丰富性和多样性，对于准确测量和提升客户体验是有必要的，事实上在那些特别重视用户体验的IT组织里，已经或者正在进行全方位的工具部署，并在尝试在各种专业分析工具之间架设运营大数据工具，集成多样化数据，提供数据的统一可视化和整合分析等能力，提升故障和优化点的定位分析能力，深度改善用户体验。

业务部门，除了关心最终用户的体验，更关心交付效率，与之相应的，IT部门开始在各个环节上采用新架构、新技术和新工具，从各个环节上提升效率，加快业务服务的交付速度。

让老板满意

让用户满意是让老板满意的基础，假如业务部门天天在老板那儿告状，老板怎么都满意不了。但是即便业务部门都说你好话了，老板就会满意了吗？要是你真的这么认为，说明你太不了解老板这种动物了。

老板要的不只是结果，也一定会追求高效率和高效益，同样的成果，能否用更低的成本达成？我们现在的成本收益水平，对应业界同行，是人傻钱多还是精明高效？说要追求“业界领先”，怎么就是领先了？不能说技术更新应用更多就是领先吧？总要有个从效益角度的衡量方法吧？假如IT部门是一个独立运营的实体，作为给钱的股东，也是要问这些问题的。

效益本质上是投资回报率，成本越低，效益越好，做的事情越有用，效益越高。要追求高效益，首先面临的难题是要有一套成本收益的衡量体系，没有量化方法，既搞不清楚IT部门当前在同业中所处的水平，更无法通过指标考核的方式推动IT部门不断提高效益水平。在没有这套衡量体系的时候，往往只能采用一些非常粗线条甚至感性的衡量方式，比如看每年的IT采购金额、IT员工数量、工业标准产品的采购单价等，导致很多IT部门在采购时往往要求厂商保证提供同行业最低价，可当大家都这么要求的时候，显然很难真正起到效果。更为重要的是，由于每个企业在业务和IT服务方面存在的差异性，这些粗线条指标并不能反映IT部门的效率和效益水平。

ITIL体系中早就提出了IT服务财务管理的概念，许多IT组织在过去十年尝试了一些BSM（业务服务管理）和ITFM（IT财务管理）的项目，一个重要动因就是试图建立IT效益的衡量体系，可在内部IT部门中成功者寥寥，主要原因是全部精力投入到基础运维工作中还忙不过来，另一方面也和缺乏特别成功的最佳实践有关。

不过随着大家的不断尝试，伴随近年来IT架构的演进和公有云的兴起，一些走在前面的IT部门已经看到了建立IT效益衡量体系的可能性，并开始在某些架构层级上开始尝试性的探索：他们采用服务分层、成本归集、各自对标的方式，对DC层、IaaS层、PaaS层的资源单位成本、资源利用效率、能源单位成本、能源利用效率和人员运营效率进行分别统计和分析，并分别和IDC、IaaS云、PaaS云的外部供应商市场价位水平做对照，来衡量自己的效率和效益水平。

IT效益衡量体系的建立，也让IT自己可以从效益角度分解目标，推动IT内各个部门能够逐年不断提升效率和效益水平，让IT部门的思考方式从成本中心转变到利润中心。近年来绿色数据中心概念和PUE指标被关注，都反映了这一变化趋势。

要注意的是，即使建立了效益衡量体系，要让它真正发挥作用，离不开大量的数据统计和数据分析，以及关键效益指标的可视化和透明化，很多IT组织开始尝试建立IT运维/运营大数据平台，引入可视化和BVD概念，也都和追求IT效益可衡量有密切关系。而这些也会带来额外的投入，IT组织可以根据自身的规模和目标优先级，在有必要的情况下，选择合适和成熟的切入点，分步尝试，逐渐建立效益衡量体系。

让员工满意

互联网企业的火热和各行业互联网+的热闹，都带来了IT人才的争夺，如何吸引和保留高素质的IT员工，已经成为许多IT部门不得不面对的新问题。要让IT员工满意，前面的两个满意（用户满意和老板满意）也是个重要基础，否则IT部门自己地位都不高，员工也没有成就感，士气低迷，满意度很难高起来。

但即使做到了前面两个满意，假如让IT员工每天都疲于奔命，员工满意度同样会差，也不是长久之计。要解决员工满意度的问题，有几个方面是要考虑到的：

以上从三个满意的角度简单聊了聊从IT运维到IT运营的一些内容，有趣的是，这些满意是递进和包含的关系，让员工满意包括让老板满意，让老板满意包括让用户满意，让业务部门满意包括让个人用户满意，但每个满意之间又都有各自的个性化内容。

要做到三个满意，让IT从“活着”到“活得好”，从重点“维”稳走向经营业务价值，意味着IT管理要更加精细化、自动化、智能化，也必须建立多样化的数据采集、多维度的数据分析/挖掘和全方位的可视化的能力，IT运营管理的架构也将在传统监管控的IT运维管理架构上有所发展和变化，以适应IT运营在体验、效率和效益方面的更多要求。

需要注意的是，IT涉及到规划、设计、开发和运营多个环节，我们更多的是从运营的角度来谈的，事实上要从IT运维走向IT运营，不仅需要运营部门（不再只是运维部门啦）的努力，也需要规划、管理和开发部门的协同配合和齐头并进。

从IT运维到IT运营，其实标志着IT组织成熟度的提升，假如借用Gartner的IO成熟度模型来看的话，IT运维更多是在前几个阶段，而更多开始关注IT运营，则标志着IT组织走到了后两个阶段：Service Aligned和Business Partnership，开始把IT本身当做业务来运营，以客户为中心，关注客户体验，运营效率和成本收益。

以上是关于IT运维到IT运营的一些不成熟的思考，抛砖引玉，希望能得到大家的批评和指教。

从IT运维到IT运营，许多IT组织已经在路上，同样也有许多IT产品和IT服务的提供商已经洞悉到这一发展趋势，配合IT运营的要求，开发和提供了许多新的运营工具和运营服务，我们希望能够与各位有志于ITOM领域的同仁们一起，齐心协力，精益求精，共同提供优秀的ITOM产品和服务，为IT从运维到运营做一点事情，让IT不仅活着，而且要活得好，活得精彩。

超融合基础架构和传统IT基础架构相比，最大的优势是什么？

相比传统FC SAN架构，超融合架构有了如下显著it基础架构运维的变化it基础架构运维：

不再使用专有it基础架构运维的存储硬件和网络，而是使用标准和易于维护的 x86 服务器与万兆以太网交换机；

核心是分布式存储，每个服务器就是一个存储控制器，需要说明的是，其中每个节点都需要配置SSD盘作为缓存，缓存容量远大于传统存储的易失性内存，且多节点并发带来更强的聚合性能；

逻辑上看，存储不再是由RAID构成的不同存储空间，而是一个统一可弹性扩展的存储池，并且具备更强的扩展能力；

分布式存储带来的另一个好处就是在统一的资源池内性能和容量都可以按需配置，而且数据可以自动均衡；

计算虚拟化和存储部署于同一服务器节点。

通过以上架构的对比我们看到，超融合架构的变革首先是分布式存储对传统存储的替代，其他更多的优势（例如基于x86服务器构建、并发与易于扩展）都是基于这种替代而带来的。

当然，分布式存储和虚拟化这种独有的部署模式，进一步简化了用户的 IT 架构，降低了使用成本和运维难度，这些价值也大大的加速了用户对分布式存储模式的接受。

it基础架构运维（it运维管理体系）

互联网时代的网络自动化运维

互联网上有两大主要元素"内容和眼球"，"内容"是互联网公司(或称ICP)提供的网络服务，如网页、游戏、即时通信等，"眼球"则是借指海量的互联网用户。互联网公司的内容往往分布在多个或大或小的IDC中，越来越多的"眼球"在盯着ICP所提供的内容，互联网公司进行内容存储的基础设施也呈现出了爆发式的增长。为了保障对内容的访问体验，互联网公司需要在不同的运营商、不同的省份/城市批量部署业务服务器用以对外提供服务，并为业务模块间的通信建立IDC内部网络、城域网和广域网，同时通过自建CDN或CDN专业服务公司对服务盲点进行覆盖。因此随着业务的增长，运维部门也显得愈发重要。他们经过这些年的积累，逐步形成了高效的运维体系。本文将结合国内互联网公司的经验，重点针对IT基础设施的新一代自动化运维体系展开讨论。

一、运维的三个阶段

● 第一个阶段：人人皆运维

在早期，一个公司的IT基础设施尚未达到一定的规模(通常在几台到几十台机器的规模)，不一定有专门的运维人员或部门，运维的工作分担在各类岗位中。研发人员拥有服务器权限，自己维护和管理线上代码及业务。

● 第二个阶段：纵向自动化

随着业务量的增长，IT基础设施发展到了另外一个量级(通常在上百台至几千台机器的规模)，开始有专门的运维人员，从事日常的安装维护工作，扮演"救火队员"，收告警，有运维规范，但运维主要还是为研发提供后置服务。

这个阶段已经开始逐步向流程化处理进行过渡，运维部门开始输出常见问题处理的清单，有了自己业务范围适用的自动化脚本，开始利用开源软件的拼装完成大部分的工作。

具体表现为：各产品线有自己编写的脚本，利用如SVN+puppet或chef来完成服务器的上线和配置管理等工作。

● 第三阶段：一切皆自动

在互联网化的大潮中，越来越多的黑马团队应运而生，都曾有过短时间内用户访问量翻N倍的经历。在流量爆发的过程中，ICP的互联网基础服务设施是否能够很好的跟进，直接决定了业务内容能否满足海量用户的并发访问。

与此同时，运维系统需要足够地完善、高效、流程化。谷歌、腾讯、百度和阿里等规模的公司内一般都有统一的运维团队，有一套或多套自动化运维系统可供参照，运维部门与开发部门会是相互平行的视角。并且也开始更加关注IT基础设施在架构层面的优化以及超大规模集群下的自动化管理和切换(如图1所示)。

图1.大型互联网公司IT基础设施情况概览

二、BAT(百度、阿里、腾讯)运维系统的分析

国内的互联网公司百度、阿里、腾讯(以下简称：BAT)所提供的主要业务内容不同，IT架构不同，运维系统在发展过程中有不同的关注点。

1.腾讯运维：基于ITIL的运维服务管理

预计到2015年腾讯在全国将拥有60万台服务器。随着2012年自动化部署实践的成功，目前正在进行自动化验收的工作。在网络设备方面，后续将实现从需求端开始的全自动化工作：设备清单自动生成-采购清单自动下发-端口连接关系、拓扑关系自动生成-配置自动下发-自动验收。整个运维流程也已由初期的传统IT管理演进到基于ITIL的服务管理流程(如图2所示)。

图2.腾讯基于ITIL的运维服务管理

2.阿里运维系统：基于CMDB的基础设施管理+逻辑分层建模

CMDB(Configuration Management Database) 配置管理数据库(以下简称：CMDB)，将IT基础架构的所有组件存储为配置项，维护每个配置项的详细数据，维护各配置项之间的关系数据以及事件、变更历史等管理数据。通过将这些数据整合到中央存储库，CMDB可以为企业了解和管理数据类型之间的因果关系提供保障。同时，CMDB与所有服务支持和服务交付流程都紧密相联，支持这些流程的运转、发挥配置信息的价值，同时依赖于相关流程保证数据的准确性。可实现IT服务支持、IT运维以及IT资产管理内部及三者之间的流程整合与自动化。在实际的项目中，CMDB常常被认为是构建其它ITIL流程的基础而优先考虑，ITIL项目的成败与是否成功建立CMDB有非常大的关系。

3.百度自动化运维：部署+监控+业务系统+关联关系

百度主要面临的运维挑战包括：突发的流量变化、复杂环境的关联影响、快速迭代的开发模式以及运维效率、运维质量、成本之间的平衡等等。百度的运维团队认为，当服务器规模达到上万台时，运维视角需要转为以服务为粒度。万台并不等于"百台*100";机器的运行状态，也不再代表业务的工作状态;运维部门为研发提供前置服务，服务与服务之间关系也随着集群的扩大逐渐复杂起来。

图3.百度自动化运维技术框架

百度的自动化运维技术框架，划分为部署、监控、业务系统、关联关系四大部分，整个框架更多突出了业务与IT基础设施的融合，注重"关联关系"的联动。所谓关联关系，主要是指任务与任务之间的时序依赖关系、任务与任务之间的数据依赖关系、任务与资源之间的引用依赖关系，分别对应到任务调度、数据传输、资源定位的服务流程中，形成了多条服务链。

关联关系的运维与业务较强相关，需要有一套系统能够理清楚关系的全貌，从而在复杂的服务链上，定位运行所在的环节，并在发生故障时预估影响范围，及时定位并通知相应的部门。在这样的一套系统中，自动化监控系统非常重要。百度的技术监控框架，主要通过数据采集、服务探测、第三方进行信息收集，进行监控评估后交给数据处理和报警联动模块处理，通过API接口进行功能扩充(如图4所示)。

图4.百度自动化技术监控框架

其实无论是BAT等互联网企业还是其他行业的企业，在IT建设中都会遵循IT基础架构库(ITIL)或ISO20000服务管理的最佳实践，采用自动化IT管理解决方案以实现重要的业务目标，如减少服务中断、降低运营成本、提高IT效率等等。随着ISO20000、ITIL v3.0的发布和推广，两者已经成为事实上的某种标准。在当今企业IT管理领域，对两个标准有着很迫切的需求。特别是ISO20000的认证要求，已经成为企业越来越普遍的需求。ITIL v3.0包含了对IT运维从战略、设计到转换、运营、改进的服务全生命周期的管理，相关方案往往覆盖了多个领域和多个产品，规划实施和工具的选择会比较纠结。如果选择开源的工具，从CMDB开始就会遇到很多的开发工作，对于很多注重成本收益比的企业，可以参考，但由于无法保证性能与效果并不一定适用。因此，成熟的商业方案会是更好的选择。

最新的iMC V7版本，围绕资源、用户、业务三个维度进行创新，发布了SOM服务运维管理(基于ISO20000、ITIL标准)等组件，增加了对服务器的管理，能很好的满足更多互联网化的场景需求。

通常认为，一个高效、好用的配置管理数据库一般需要满足6条重要标准，即联合、灵活的信息模型定义、标准合规、支持内置策略、自动发现和严格的访问控制。企业IT基础架构的元素类型、管理数据的类型往往有较多种，如网络设备、服务器、虚拟机等，因此对于多种信息的存储需要有合适的联合的方法。虽然 iMC智能管理平台在网络设备、服务器设备等方面已经能够较好的的满足，但是随着服务器虚拟化技术的发展，虚拟机正越来越多的成为IT基础架构的一大元素。因此，针对这一需求华三通信基于CAS CVM虚拟化管理系统，对服务器CPU、内存、磁盘I/O、网络I/O等更细节的重要资源以及虚拟机资源进行全面的管理。与BAT不同，华三通信的网管软件面向全行业，目前虽然没有对域名管理等特殊资源的'管理，但是能够通过API接口等方式与特有系统进行联动，进而满足定制化运维的需求，尤其是在互联网化的场景中，针对不同的业务需求，可以实现很多定制化的对接需求，例如，iMC+WSM组件与国内某大互联网公司自有Portal系统进行了对接，打通了iMC工具与用户自有运维平台，很好的实现了架构融和。另外，与阿里的逻辑分层建模相似，H3C "iMC+CAS"软件体系在上层也做了很多的逻辑抽象、分层，形成了诸多的模块，也即是大家看到的各种组件。

三、网络自动化运维体系

"哪怕是一个只有基础技术能力的陌生人，也能做专业的IT运维;哪怕是一个只有初中学历的运维人员，也能够带队完成中小型机房节点的建设，并负责数百至上千台服务器的维护管理工作"--这是一些公司对自己IT运行维护水平的一个整体评价。看似有些夸大的嫌疑，但实际上依托于强大的IT运维系统，国内已经有不少互联网公司能够达到或者接近这一标准。

这些企业都经历了运维发展过程中的各个阶段，运维部门曾经也是被动的、孤立的、分散的"救火队"式的团队，在后来的发展过程中，IT系统架构逐渐走向标准化、模型化，运维部门建立了完整的设备、系统资源管理数据库和知识库，包括所有硬件的配置情况、所有软件的参数配置，购买日期、维修记录，运维风险看板等等，通过网管软件，进行系统远程自动化监控。运维过程中系统会收集所有的问题、事件、变更、服务级别等信息并录入管理系统，不断完善进而形成一套趋向自动化的运作支撑机制。按照云计算的体系架构，在这样一套系统中，主要的IT资源包括计算、存储、网络资源，近些年随着网络设备厂商的推动，网络设备管理方面的自动化技术也得到十足的发展。

总结来看，一个企业在进行互联网化的建设初期，就需要考虑到随着用户访问量的增加，资源如何进行扩展。具体可以细化为规划、建设、管理、监控、运维五个方面。

1.规划模型化

为了确保后续业务能够平滑扩容，网管系统能够顺利跟进，互联网企业一般在早期整体系统架构设计时便充分考虑到标准化、模型化，新增业务资源就好比点快餐，随需随取。

标准化：一是采用标准协议和技术搭建，扩展性好，使用的产品较统一，便于管理;二是采用数据中心级设备，保证可靠性、灵活性，充分考虑业务系统对低时延的要求。

模型化：基于业务需求设计网络架构模型，验证后形成基线，可批量复制，统一管理，也适宜通过自动化提高部署效率、网管效率。

图5.常见互联网IDC架构

2.建设自动化

互联网IT基础设施具备批量复制能力之后，可以通过自动化技术，提高上线效率。在新节点建设过程中，3～5人的小型团队即可完成机房上线工作。例如某互联网公司某次针对海外紧急业务需求，一共派遣了2名工程师到现场进行设备安装部署和基本配置，而后通过互联网链路，设备从总部管理系统中自动获取配置和设备版本，下载业务系统，完成设备安装到机房上线不超过1周时间。

要达到自动化运维的目标，建设过程中需要重点考虑批量复制和自动化上线两个方面(如图6所示)。

批量复制：根据业务需要，梳理技术关注点，设计网络模型，进行充分测试和试点，输出软、硬件配置模板，进而可进行批量部署。

自动化上线：充分利用TR069、Autoconfig等技术，采用零配置功能批量自动化上线设备，效率能够得到成倍提升。

图6.批量配置与自动化上线

○ Autoconfig与TR069的主要有三个区别：

○ Autoconfig适用于零配置部署，后续一般需要专门的网管系统;TR069是一套完整的管理方案，不仅在初始零配置时有用，后续还可以一直对设备进行监控和配置管理、软件升级等。

○ Autoconfig使用DHCP与TFTP--简单，TR069零配置使用DHCP与HTTP--复杂，需要专门的ACS服务器。

安全性：TR069更安全，可以基于HTTPS/SSL。

而H3C iMC BIMS实现了TR-069协议中的ACS(自动配置服务器)功能，通过TR-069协议对CPE设备进行远程管理，BIMS具有零配置的能力和优势，有灵活的组网能力，可管理DHCP设备和NAT后的私网设备。BIMS的工作流程如图7所示。

图7.H3C iMC BIMS工作流程

3.管理智能化

对于网管团队而言，需要向其他团队提供便利的工具以进行信息查询、告警管理等操作。早期的网管工具，往往离不开命令行操作，且对于批量处理的操作支持性并不好，如网络设备的MIB库相比新的智能化技术Netconf，好比C和C++，显得笨拙许多。因此使用的角度考虑，图形化、智能化的管理工具，往往是比较受欢迎。

智能化：使用新技术，提升传统MIB式管理方式的处理效率，引入嵌入式自动化架构，实现智能终端APP化管理(如图8所示)。

图8.消息、事件处理智能化

● Netconf技术

目前网络管理协议主要是SNMP和Netconf。SNMP采用UDP，实现简单，技术成熟，但是在安全可靠性、管理操作效率、交互操作和复杂操作实现上还不能满足管理需求。Netconf采用XML作为配置数据和协议消息内容的数据编码方式，采用基于TCP的SSHv2进行传送，以RPC方式实现操作和控制。XML可以表达复杂、具有内在逻辑、模型化的管理对象，如端口、协议、业务以及之间的关系等，提高了操作效率和对象标准化;采用SSHv2传送方式，可靠性、安全性、交互性较好。二者主要对比差异如表1所示。

表1 网管技术的对比

● EAA嵌入式自动化架构

EAA自动化架构的执行包括如下三个步骤。

○ 定义感兴趣的事件源，事件源是系统中的软件或者硬件模块，如：特定的命令、日志、TRAP告警等。

○ 定义EAA监控策略，比如保存设备配置、主备切换、重启进程等。

○ 当监控到定义的事件源发生后，触发执行EAA监控策略。

4.监控平台化

利用基本监控工具如Show、Display、SNMP、Syslog等，制作平台化监控集成环境，实现全方位监控(如图所示)。

;

IT运维管理：“真”价值究竟在哪里？

在努力提升IT管理服务水平的同时it基础架构运维，一个更深层次的讨论正在展开IT运维管理的真价值究竟在哪里it基础架构运维？对于这一问题的回答，不仅关系到CIO和IT部门的话语权，更决定了现代信息化商业社会中，企业的发展与未来。企业IT管理部门的宗旨是为组织的内部和外部提供优质高效的IT服务，而IT运维管理就是如何做到降价成本、提高效率，在满足企业IT服务需求的同时，提升IT运维水平，将IT部门由成本中心向价值中心转变这是很多IT管理者在描述IT运维工作目标时候的经典语录。但在表面的光环背后，IT运维管理部门在不少领导的心目中，却往往只是一个会花钱、说空话的部门。虽然不断升级的云计算、应用交付、虚拟化等新技术浪潮，让IT运维管理需求成为炙手可热的话题。但相关的问题也随之而来，由于业务对IT系统依赖性不断增强，新的信息系统不断上线，IT人员不断增加，信息系统的运营费用也随之增加，在公司总运营成本中所占比重越来越大。在一些不太了解IT运维具体工作的领导眼中，如果每年的IT运维管理成本预算不断增加，而他又不清楚这些钱花到哪里去了，再加上时不时还会出现的IT故障和业务部门的投诉等等。这些问题积攒在一起， IT部门花钱惹麻烦的印象就顺理成章地形成了。对于企业IT运维管理表面上被认可，但实际上体现不出真价值的普遍现象，锐捷网络IT运维管理业务部总经理冯晋阳认为it基础架构运维：IT运维要显示出‘真’价值，不但要在底层设备完成监视与预警，还要在呈现上做文章。在当前经济形势下，任何一家企业都会注重成本管理，特别是其他费用大多都可精确衡量之后，IT运维成本价值模糊的问题就显得尤其突出。由于IT运维工作无法抛弃为业务部门服务的本质，也就决定了它缺乏张扬和展示手段，IT在企业中价值就有可能被冲淡。再加上业务系统时常遭受到IT系统的烦扰，无法提升管理效率，产生这样或者那样的投诉。所以，IT运维部门想要得到认可，就需要找到一个让别人发现自己价值的方法，这对于改变IT运维部门的尴尬局面将起到至关重要的作用。传统看、说、做抹杀IT运维价值面对这一问题，冯晋阳先生表示，实际上，传统的IT运维管理产品经过多年发展，虽然已经有了扎实的应用基础，但在体现IT系统真价值方面却还存在缺陷。首先是看：假设企业的IT系统能够保持一个高效稳定的运行状况，不仅可以提升企业应对市场的能力，还可以降低企业的IT投入，最大限度地实现IT投资回报，这些都是IT运维管理的价值。那么，这个价值如何让领导层看到呢？是让领导亲临网管的桌子上，看看现在的网络流量有多么正常吗？想要知道答案，先拷问一下自己，如果你是一个管理上千人，几十个部门的决策者，你有时间去听网管给你解释每个参数的含义吗？答案是显而易见的。其次是说：当企业领导询问IT运行情况时，我们只能回答好或者不好吗？当年终领导询问下一年的经费预算时，IT运维主管领导往往左顾右盼，只能说大概怎样。假设你是掌握财权的领导，你会对这样的答复买单吗？在需要IT运维部门说真话的时候，由于没有科学的证据，回答问题时没有公信力或者说服力，IT的价值和部门一年的辛苦可能就这样被无辜抹杀了。最后是做：在这一点上，其实是在回答IT运维部门是做什么的问题。我们要清楚，现代企业的发展已经离不开IT技术的有力支撑，作为增强核心竞争力的法宝，企业不可能停止对IT的投入，但投入的最终目的是为了使业务系统发挥功效，实现利润与收益。在这条价值链上，IT运维管理在做什么呢？如果我们还停留在设备、网络、服务器这种底层监控阶段，无法与业务有机融合，那么不仅在企业的价值链中将永远看不到IT运维的身影，企业也将因为失去IT这一现代商业社会最重要的引擎而失速落败。 IT运维管理三阶段 RIIL激活IT价值对于IT运维管理部门来说，采用锐捷网络的RIIL激活IT价值，要做到有章可循，可以分为三个具体的阶段性操作来实现：第一阶段：用RIIL搭建基础架构管理中心。并通过多种协议方式完成所有设备的采集，形成物理和逻辑拓扑图。模拟管理员日常工作行为，完成对服务器、网络设备、安全产品、数据库、中间件、Web服务、存储设备状态和性能的实时监控，帮助IT运维部门实现IT基础设施管理的可视化和自动化，降低管理复杂度，从而提高对IT基础架构的主动监管能力。第二阶段：在基础架构管理中心构建完成之后，RIIL还提供了图形化的业务建模工具，用户可以根据实际环境，定义个性化的业务运行评估模型。从底层监控，再到业务视角、用户视角，对被监测资源进行关联、重组，建立真实表达业务内部关系的影响模型图，帮助用户快速搭建业务卡片视图，准确判断业务健康度、繁忙度、业务层级视图和业务告警等内容，客观评估业务运行水平，让IT投入的效益最大化，真正实现IT管理与业务管理的无缝融合。第三阶段：关注IT整体健康指数，持续优化。要完成这一目标，可以使用RIIL中的一些具体的功能特性，例如RIIL中的IT健康指数。它是一条类似股票大盘的指数曲线，如果出现下行趋势，则说明企业的IT系统正在变坏，出现了问题。同时与IT健康指数相关联的有一个业务雷达，可以显示出当前健康指数下行是由于哪一个业务系统的健康发生变化造成的，同时可以追溯到是什么IT资源发生了问题。冯晋阳先生表示：站在业务的角度去做运维，站在科学的角度上去说运维，站在企业价值的角度去呈现运维，这三点就是RIIL能够帮助运维部门提升价值的关键。比如，在RIIL产品中，即使不够专业的用户也可以通过超大屏幕看懂运维数据、直观易懂的业务卡片、IT健康指数等等，这些功能都围绕着IT运维价值呈现这一核心要素。

互联网化架构下的it系统运维有哪些难点

何谓IT运维管理？在了解这个概念之前，我们首先需要了解一下什么是IT管理？
天天客服IT运维管理中心专家龙少文解释：IT管理是在信息化运营阶段通过运维管理制度的规范，IT管理系统工具的支持，引导和辅助IT管理人员对各种IT资源进行有效的监控和管理，保证整个IT系统稳定、可靠和永续运行，为业务部门提供优质的IT服务，以较低的IT运营成本追求业务部门较高的满意度。
简而言之，可以理解IT运维管理为：在网络的基础设施建设完成之后，整个网络处于运行状态，IT部门采用相关的管理方法，对运行环境(包括物理网络，软硬件环境等)、业务系统等进行维护管理，我们把这种IT管理的工作简称为IT运维管理。
IT运维管理包含内容
IT运维是IT管理的核心和重点部分，也是内容最多、最繁杂的部分，主要用于IT部门内部日常运营管理，涉及的对象分成两大部分，即IT业务系统和运维人员。其管理内容又可细分为七个子系统：
第一、设备管理：对网络设备、服务器设备、操作系统运行状况进行监控，对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理，如邮件系统、DNS、Web等的监控与管理;
第二、数据/存储/容灾管理：对系统和业务数据进行统一存储、备份和恢复;
第三、业务管理：包含对企业自身核心业务系统运行情况的监控与管理，对于业务的管理，主要关注该业务系统的CSF(关键成功因素CriticalSuccessFactors)和KPI(关键绩效指标KeyPerformanceIndicators);
第四、目录/内容管理：该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;
第五、资源资产管理：管理企业中各IT系统的资源资产情况，这些资源资产可以是物理存在的，也可以是逻辑存在的，并能够与企业的财务部门进行数据交互;
第六、信息安全管理：该部分包含了许多方面的内容，目前信息安全管理主要依据的国际标准是ISO17799，该标准涵盖了信息安全管理的十大控制方面，36个控制目标和127中控制方式，如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;
第七、日常工作管理：该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段IT运行维护管理的每一个子系统中都包含着十分丰富的内容，实现完善的IT运维管理是企业提高经营水平和服务水平的关键。
IT运维管理面临的难题
IT运维管理是一门探讨如何提高网络应用性能的课题，怎样利用网络管理做到企业IT基础设施建设的管理、合理分配网络资源、保障生产业务、对网络规划和新业务上马提供支撑，而其最核心的目的是保障企业生产业务。
日常IT运维管理面临诸多难题，具体体现在以下多个方面：
网络设备
在企业IT基础设施的搭建过程中，底层的网络设备厂商和类型多样且复杂。随之而来的问题是：如何将不同厂商的网络和应用管理产品在界面级、消息
级和数据级集成起来实现统一管理？如何让IT管理员了解到整个网络全局的运行情况、发展趋势和可能存在的故障隐患点，以便及时采取相应措施，实现事前管
理。
拿曾经碰到过的一个典型客户来说，它的网络中有11种厂商的路由交换设备，还有存储设备，安全设备，UPS等。同时还拥有：小型机，服务器等，上层的业务系统有OA和CRM等。这样大而复杂的一个网络环境，该怎么管呢？
科学的运维管理思路告诉我们，首先需要解决的是对IT基础设施的管理，管理范围要能覆盖到机房所有硬件设备。这一点是前提和基础。其次，才是对各种应用系统做到很好的监控。最后，才能为业务系统提供足够的保障。
网络流量
在绝大多数的企业网络中，存在不同程度的网络延迟，造成重要业务和应用时断时续，这直接成为企业业务的杀手。另外，网络的带宽也是企业关心的重
点。比如，哪个时间段很拥挤，哪个时间段很空闲，有没有规律，怎么样去调查拥塞的原因，网络带宽都是被谁占用了，是被哪些客户端、哪些应用或者异常应用所
占用了。这些都是摆在每一个企业运维管理领域中很实际的问题。
　该如何很好的解决这些问题呢？
根据多年的运维管理经验得出，对于这种情况，需要采用流量分析的方式。通过对出口流量或者监控对象进行采集，进行24小时实时的监控和分析，可
以对流量进行多角度多层次的挖掘分析，比如按照流量、数据包个数、连接数、协议等类别分析当前网络的负载情况，为网络的优化配置提供参考。通过报表分析展
现流量特征，让IT管理员明白流量被谁、被何种应用、被何种异常行为占用得怎么样。
IT运维管理怎么样帮助IT管理员判断和控制安全问题，也就是作为与防病毒、防火墙、IPS等安全产品不同的角色，从网络的整体情况要能够判断未知的安全问题，并提供修复方案，
在不影响正常网络运行状况下将安全问题防患于未然。如果IT管理员能针对异常行为的特征建立自动告警，在某些安全攻击出现前发现故障隐患，并提供连动的判
断和处理机制，这样IT管理员可以及时采取了措施避免业务遭受损失。如果能在对问题特征自动告警的同时，自动记录问题的原始数据以供事后分析，这样IT管
理员可以再现数据异常行为、捕捉网络数据异动入侵记录，对症下药制订策略防止问题的再次发生。
业务系统
针对日益复杂的业务系统，现有的运维管理系统更多的强调的是功能的展现。比如，从业务主机负载、数据库服务器负载、数据库、中间件、应用系统、
网际流量、进程状况等等不同角度实施联合监控，强调的是性能参数指标的多少，或者是界面的美观程度。当然，这是落实业务系统管理环节所采用的方法。
但事实上，作为企业自身来说，无论采用哪种监控也好，IT管理手段或者运维管理系统也罢，其核心总是需要围绕保障和改进企业的业务系统。
　这就提出一个问题，如何来保障又如何改进企业的业务系统呢？
首先，需要了解清楚业务系统所涉及的具体环节，针对每一个环节进行管理落实。按照科学运维管理的建设思路，分为：用户-网络-硬平台-软平台-
业务系统这五个环节。需要从这五个环节所涉及到的五个方面去做工作。这五个方面分别是：全局的性能管理、故障和事件管理、资源的使用状况管理、安全管理和
数据分析管理。其次，通过性能和历史数据的反映，又可以做到对业务系统提供改进决策的指导。
当然，对于如何保障和改进业务系统这个问题，目前业界众说纷纭，没有统一的标准。但有一点是肯定的，就是需要从企业用户的角度出发，通过明确的管理思路作为指引，使用软件+服务的方式和企业用户共同探索和研究，最终达到对业务的保障和改进。
当前IT运维管理的任务
在企业网络运维早期，IT运维管理侧重于网络、硬件等设备。随着业务系统涉及的环节日益增多，单一的网络管理已经不足以满足管理需求，越来越多的企业已经将关注点从单一网络转变到当前的业务系统，落实保障业务系统的各个环节成为重中之重。
因此，我认为，当前国内用户最关心的莫过于如何保障业务系统的正常运行。IT运维系统应该从业务角度切入，以业务为导向，通过对整个业务系统的关注，落实业务系统的各个环节，从而来达到保证业务系统稳定运行和透明化管理的目的。关于it基础架构运维和it运维管理体系的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。 it基础架构运维的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于it运维管理体系、it基础架构运维的信息别忘了在本站进行查找喔。

标签：运维运行认证大数据工程师

暂时没有评论，来抢沙发吧~

it基础架构运维（it运维管理体系）

(转)IT：从运维到运营

超融合基础架构和传统IT基础架构相比，最大的优势是什么？

互联网时代的网络自动化运维

IT运维管理：“真”价值究竟在哪里？

互联网化架构下的it系统运维有哪些难点

AIOps 一场颠覆传统运维的盛筵

AIOps 让告警管理变得更智能（上），为什么事件（告警）处理需要AIOps？

Tech SaaS的盛夏即将到来