事件加工处理平台的必要性,事件管理平台介绍
1615
2022-10-06
医疗行业容灾备份平台建设及运维难点解析
现在医院对信息系统的依赖性越来越大,如何避免数据丢失,当遇到数据灾难时如何快速地恢复数据,保障医院业务开展的连续性,已成为影响医院业务发展的关键因素。为了能更好解决医疗行业在容灾备份平台建设及运维的难点,社区近日组织了相关交流,多位三甲医院的一线技术精英和科技企业的技术专家参与,针对医疗行业容灾备份平台建设及运维难点挑战,积极发表了自己的见解与看法。最终在热烈的氛围中交流研讨活动就医院容灾备份平台的建设达成了一致共识,挑战的痛难点也得到了一致的解答。以下重点从四个方面对交流内容进行总结梳理,供大家参考:医院容灾备份技术路线的选择、医院容灾备份建设方案、医院建设容灾备份平台的技术难点 、医院容灾备份平台的运维与收益。
一、医院容灾备份技术路线的选择
1、如何结合医院的需求场景、医院现有业务系统的关键程度以及对RTO和RPO要求选择合适容灾备份技术路线?
@czhe 医疗行业:
医院的业务系统按照容灾系统对应用系统的保护程度可以分为数据级容灾和应用级容灾, 数据级容灾系统只保证数据的完整性、可靠性和安全性,但提供实时服务的请求在灾难中会中断。应用级容灾系统能够提供不间断的应用服务,让服务请求能够透明(在灾难发生时毫无觉察)地继续运行,保证数据中心提供的服务完整、可靠、安全。因此对服务中断不太敏感的部分可以选择数据级容灾,以便节省成本,在数据级容灾的基础上构建应用级容灾系统,保证实时服务不间断运行,为用户提供更好的服务。下表是几种灾备技术的对比:
2、关于Cache数据库是否有本地容灾或者同城、异地容灾建设的方案?
1,不同厂商对应的医院信息平台使用的数据库是不一样的,SQL、Oracle等数据库相对容易实现容灾建设,像Cache数据库,是否有本地容灾或者同城、异地容灾建设的方案?2,如果不依托现有的虚拟化或者云平台,传统物理环境下,cache数据库如何实现可靠容灾?
@chpps2000 阳光保险集团 安全工程师:
Cache 2012之前只能通过shadow进行灾难恢复。2016支持shadow和mirror模式部署,mirror可以实现业务接管,shadow仍然跟之前一样但是mirror通常只用作集成平台容灾,数据库建议还是使用shadow模式。
一般来说还是建议做本地基于主机HA的容灾,异地用shadow做备份。也可以考虑用rose的mirrorHA实现无共享存储的HA,但是脑裂风险大。
@jakeyyu 三甲医院 系统架构师:
Cache数据库自身具有在线实时镜像功能,理论的数据误差不高于15秒。目前该数据库基本以这种方式进行在线容灾,一般还会配以存储双活。基本上方案都出自于软件提供方。
3、存储双活和容灾备份选择?
存储双活和容灾备份选择:针对医院重要业务系统做存储双活,一般业务做容灾备份,这样是否安全,还是说选择所有的业务系统都做存储双活,重点业务做容灾备份更加安全呢。针对勒索病毒等病毒攻击,容灾备份是必须的吗,还是说存储双活也能代替容灾备份功能呢。
@福建医科大学附属第二医院 xiaofu高级工程师:
1 ) 备份是容灾的基础,我们常说321原则。2 ) 容灾一般指相隔较远的异地建立相同的it系统,当一套出现故障另外一套可以接管工作。3 ) 然后根据业务系统的特点(如数据库、应用、图片存储等)部署的方式、业务的重要性选择不同的容灾备份方案。常常采用RPO与RTO来衡量。4 ) 在医院的环境中,三甲医院基本追求远程数据实时备份,零丢失。应用容灾无缝切换,群集自动化监控切换。5 ) 解决方案也很多,可以根据自己实际环境研究合适自己的容灾备份方案。
@jakeyyu 三甲医院 系统架构师:
首先要弄清楚双活的意义是什么,双活的目标是保证医院系统在运行过程中,发生节点故障后另一个节点自动接管业务,而前端医护人员使用过程中感受不到系统发生过故障。而容灾备份的要求是在系统发生灾难情况下,可以将系统数据恢复到发生灾难前的一刻。因此,选择的时候就需要考虑业务的连续性,连续不能中断的业务最好选择双活系统,容灾备份也不能少。针对病毒攻击,容灾备份是不可少的,同时还要考虑网络中的安全问题和操作系统平台选择问题。
@Dell_zhangcan 戴尔科技 架构师:
首先需要明确双活与容灾备份解决方案的区别。双活方案提供的是应用保护,容灾备份提供的是数据保护。具体说,双活方案指当某一台设备(单台服务器、交换机、存储)或某一个数据中心发生物理故障,如停电、硬件故障、网络中断等时,核心应用(如 HIS )不会中断,前端的医务工作人员对故障无感知。但是对于病毒攻击,双活方案是无能为力的,因为双活技术的原理决定了病毒会同时感染两个数据中心。所以双活解决方案是无法防范病毒入侵、人为误操作导致数据丢失等逻辑错误的。
针对医院最核心的业务系统(HIS、EMR、PACS等), 最完善的保护方案是 双活 + 连续数据保护(CDP) + 容灾备份, 这样才能既防 范业务中断,又防止数据丢失,以及中病毒后的快速恢复。同时,双活解决方案不能只做存储双活,而是数据库、服务器、网络、存储都要做双活,比如 Oracle RAC+ 两台 Server+ 两台交换机 + 两台存储的双活解决方案。
其次,容灾备份方案指发生火灾、水灾、病毒入侵导致业务中断、数据丢失时,还有一份宝贵的数据用于恢复业务。因为医院一般业务对业务中断的敏感度不高( RTO 要求不高),允许一定的停机时间,所以一般业务选择容灾备份方案做保护的较多。
再次,从医院的实践看。大多数三甲医院对于核心应用采用的是双活 +CDP+ 容灾备份的解决方案,比较重要的应用采用的是本地备份 + 异地容灾备份解决方案,普通应用采用异地容灾备份解 决方案。所以具体采用什么样的保护措施,需要根据应用的重要性和 RTO、RPO指标选择对应的解决方案。
@anonymous:
当医院规模大系统繁多时,全部容灾肯定不现实,只能对不影响医院业务的前提下考虑灾备,比如HIS,EMR,RIS,LIS内镜,其他做数据备份
二、医院容灾备份建设方案
1、关于医院信息集成平台、业务新系统、软件数据中心双活机房的建设请教?
医院信息集成平台建设已是行业内公认的中大型医院信息化建设所必须建设内容,也是电子病历分级评价、互联互通等硬性要求。对于医院减少接口重复建设,标准化基础数据,整合优化业务流程有着重要的意义,已经成为医院信息化的建设的软件系统基础设施之一。医院信息平台承担内、外互联,信息交互、发布等业务较多,架构也因不同厂商不尽相同,现在一般功能应用型服务器可以部署在虚拟机上,数据库服务器一般还是以物理机为主。类似于这种信息集成平台及相关的业务系统,还有高等级医院相关数据中心(CDRMDR科研等)如果想实现全双活机房数据中心建设,应该选择哪种存储及应用解决方案?
@czhe 医疗行业:
双活特性中的两个数据中心互为备份,且都处于运行状态。当一个数据中心发生设备故障,甚至数据中心整体故障时,业务自动切换到另一个数据中心,解决了传统灾备业务无法自动切换的问题。提供给用户高级别的数据可靠性以及业务连续性的同时,提高存储系统的资源利用率。存储系统为基础的存储双活架构,为客户建设业务不间断运行的解决方案,包括本地数据中心部署逻辑架构和跨数据中心部署逻辑架构。
@Dell_zhangcan 戴尔科技 架构师:
对于数据库跑在物理机上,其他业务跑在 VM 上的医院,大多数医院采用的是集中存储 + 分布式存储(超融合)的混合架构。虚拟化,特别是基于 VMware 的虚拟化并不妨碍全双活数据中心的建设和容灾。有医院基于 VMware 跑 Oracle RAC ,也有医院采用 VMware 的延伸集群技术建设虚拟化双活平台。
2、医院信息化平台的灾备方案如何综合考虑多院区,异地,本院区的统一?
当前医院信息化建设对于容灾这块非常重视,常用的方案中经常会提到异地,本地等灾备的方案。但是目前大型医院发展规模较大,具有多院区,多系统等情况。那么异地灾备也存在一些问题,诸如采用何种方案,如何部署,链路安全保证等,面对这种复杂的场景,如何做到一个全面的灾备考虑?
@jakeyyu 三甲医院 系统架构师:
首先多院区异地灾备要做到数据统一,业务统一,必须保证稳定的安全的链路带宽。目前常用的方法是租用运营商的开放链路,但是这要避开院区之间的市政施工,采用方法是双链路不同运营商,前提是不考虑成本的情况。其次是数据库软件的选型,必须高效支撑分布式节点数据库,例如oracle RAC以及其他具有类似功能的数据库。第三,同城异地数据中心的数据备份必须保持一致性,而且可以多院区多副本。
@czhe 医疗行业:
现在大型医院都有多个院区,从异地容灾的可行性、管理难度、资金投入、业务逻辑熟悉程度,我们建议用户选择其中一个院区作为灾备中心。
针对各院区信息系统可通过IP网络实现业务数据复制和应用接管,同时为了规避网络带来的风险,业务接管方式配置为半自动模式,即配置一键切换,但是需要人为判断后切换。
在实现以上系统容灾的前提下,设计方案需具备如下要素:
1)必须具备数据一致性策略及检查方式,保障数据库多个文件组的一致性;
2)配置数据持续保护,实现任意点还原;
3)支持远程复制链路,且不占用太大带宽。
3、Oracle RAC在多院区同城异地节点灾备中,如何做到备份数据异地多副本方案,多副本的数据安全如何保障?
目前由于医院的多院区建设,医疗联盟的发展,大型医院具有多个院区已不再新鲜。同时,多个院区也给信息系统化建设容灾方面提供了一些物理上的支撑。例如,两地三中心的容灾机制,在多院区的环境下可以实施。在一些使用Oracle RAC的医院环境下,完全可以将RAC的节点分布在各个院区,同时带来的问题就是数据的备份如何存储,备份是单副本还是多副本,多副本如何分散在各个中心,这些方案如何设置?
@czhe 医疗行业:
在一些使用Oracle RAC的医院环境下, 对于RAC的节点分布在各个院区的情况可以使用DataGuard或是 GoldenGate实现容灾 ,GoldenGate是基于日志实时更改数据库捕获和交付,它抽取在线日志中的数据变化,转换为GGS自定义的数据格式存放在本地队列或远端队列中。两端数据库是活动的,容灾端可以提供实时的数据查询及报表业务等,从而提高系统整体的业务处理能力,充分利用 容灾 端的计算能力,提升系统整体业务处理性能。
4、微服务架构下,容灾备份如何设计方案?
微服务架构在某些应用场景,特别是医院繁琐的业务中可以将业务剥离,形成微服务模式,数据存储的分散性是微服务的一个特点,但由于分散存储导致的数据读取,交互,也是其应用过程中的一个难点,根据其数据存取的特点,此类应用该如何考虑容灾?
@北京不眠夜 苏州博纳讯动软件有限公司 产品经理:
您描述的场景比较难以判断。
我从常规的容灾思路来解释一下。微服务部署在VM上,参照传统应用部署一套,做主备或双活即可。数据备份依托专业备份软件实现。微服务部署在容器上,借助容器平台自身的高可用性,实现多集群多实例部署。例如,将挂号系统部署在集群A内,在集群B中也部署1套,通过负责实现应用双活或主备。这样就可以在单数据中心内应用高可用。数据库建议放到K8s集群外面,通过传统方式实现数据库的容灾。
@czhe 医疗行业:
微服务的基本容灾模式:
1.主动超时
调用依赖的时候设置好超时时间,出问题的时候主动超时,最简单有效的处理方式。
2.限流
限制最大并发数,限制访问数量。好比长假期间高速公里的限流。
3.熔断
错误达到阈值时,类似保险丝熔断。如果后端系统出现大规模延时,需要暂时的熔断保护后端系统。一般熔断不是所有都拒绝,可以通过少量请求判断是否恢复正常,如果恢复则结束熔断动作。
4.隔离
隔离不同的依赖调用,凡是系统资源都是有限制的,如果不隔离很容易因为一个服务的延迟,把所有资源都给耗尽。如果服务都是隔开的,那出问题不会影响其他服务。
5.降级
服务降级,比如某个高峰时期,服务器处理不了全部的请求,那优先处理VIP用户,对普通用户可以导入到一个错误提示页面进行处理。
三、医院建设容灾备份平台的技术难点
1、医疗行业做容灾需要先整合各IT子系统吗?
医院信息系统至少有十几个到几十个子系统,请问医院建容灾备份平台需要将各个子系统整合吗?哪些容灾技术属属于开放式的容灾技术?
@czhe 医疗行业:
容灾备份有多种实现方式,例如主机复制型灾备技术、存储复制型灾备技术、连续数据保护灾备技术。如果用户采用的是存储复制型灾备技术,那么就必须要先整合了,多个IT存储设备是完全不可能采用一种存储设备进行灾备的。因为存储灾备型技术不是开放的灾备技术,需要专用的单一存储设备,我们除了整合没有更好的办法。而其余的灾备技术类型则属于开放型灾备技术,系统整合则并不是十分必要。
2、医院建容灾备份平台需要考虑哪些技术和环境因素?
医院信息系统至少有十几个到几十个子系统,而这些子系统往往由不同厂商提供,信息安全设备很多医院采用异构方式确保系统更加安全,在这种情况下,医院建设容灾备份平台需要考虑哪些技术和环境因素?
@czhe 医疗行业:
医院建设容灾备份平台需要考虑的技术和环境因素有以下几点:1.需要确认应用系统对RTO和RPO有哪些要求 2.哪些应用系统想做数据级容灾还是应用级容灾 3.做容灾的应用系统的数据类型是结构化的还是非结构化的 4.容灾架构和容灾方案的选型
3、医疗行业建设容灾备份平台有哪些技术难点,如何解决?
医疗行业建设容灾备份平台有哪些技术难点,如何解决?医院的生产中心存储发生意外故障,灾备中心存储上的应用与数据是否能够正常启动,数据是否一致需要如何测试?
@czhe 医疗行业:
当医院生产中心存储发生意外故障,灾备中心存储上的应用与数据是否能够正常启动,数据是否一致需要按以下步骤进行测试:
1) 通过Metro Mirror将存储1上的数据复制到存储2,在存储1不断添加新的数据。
2) 断开两台存储之间FCSW的光纤,此时在主机端在存储1存放新数据。
3) 接通两台存储之间FCSW的光纤,手工启动一致性群组可以看到很快一致性群组又回到同步状态。
4) 此时将存储2重新映射给主机,发现数据与存储1映射卷上的数据一致。
测试结果说明主备站点的链路中断不影响主站点数据的应用;链路恢复后,重新同步采用增量方式,可以快速达到重新同步。
4、制约容灾演练或者实际启用容灾失败的主要原因一般有哪些?
@czhe 医疗行业:
制约容灾演练或者实际启用容灾失败的主要原因一般有以下几点 :
1) 容灾组织建设不健全,建立了容灾中心,系统维护的工作量增加很多。很多单位忽视了需要增加相应的专职工作人员,系统切换人员没保证。当发生灾难时,需要有人作出是否启用容灾中心的决定以及进行容灾系统切换及回切工作。在平时,需要有人组织和完成日常管理、预警、演习、测试、培训等工作。
2) 日常管理不到位 , 如果日常管理工作不到位,出现容灾中心的数据和生产中心不一致现象,难以保证在切换时能够正常接管工作。
3) 预警流程缺乏 , 在灾难来临时,各个部门的人如果乱做一团,不知道该做什么,容灾系统也难以起到应有的作用。
4) 没有容灾演习 , 容灾系统建设完成后,必须不定期进行容灾演习。根据在演习过程中是否真正进行系统的切换 .
5) 没有做容灾测试 , 如果对容灾系统的数据、功能、性能等方面没有测试验证,难以保证容灾系统可实现数据保护和业务接管。
6) 没有做好容灾培训 , 如果没有做好培训,难以保证相关人员及时学习到相关的知识和技能并及时更新。
四、医院容灾备份平台的运维与收益
1、医疗行业实施容灾备份平台完成后项目就进入了运维阶段,对于项目在实施过程中所涉及到的硬件设备与相关软件是如何做好日常运维并保障系统正常运行的?
@czhe 医疗行业:
为确保容灾系统稳定、可靠的运行,达到项目建设预期的效果,需要建立容灾备份系统配套的运维管理制度。具体如下:
(1) 建立运维管理的组织架构,统一负责实施、运 营 维护、应急响应和恢复的管理和决策工作。
(2) 制定一套完整的容灾日常运维管理制度,进行人员岗位设置和职责划分,制订变更管理、问题管理、事件管理、供应商管理、介质管理、灾难恢复中心资源管理等管理制度规范 ;制订系统日常巡检、系统与维护、系统紧急上下电等技术规范模板 。
(3) 建立一个完整、易用、明确、有效、兼容的灾难恢复预案。
a.完整性:灾难恢复预案(以下称预案)应包含灾难恢复的整个过程,以及灾难恢复所需的尽可能全面的数据和资料;b.易用性:预案应运用易于理解语言和图表,并适合在紧急情况下使用;c.明确性:预案应采用清晰的结构,对资源进行清楚的描述,工作内容和步骤应具体,每项工作应有明确的责任人;d.有效性:预案应尽可能满足灾难发生时进行恢复的实际需要,并保持与实际系统和人员组织的同步更新;e.兼容性:灾难恢复预案应与其它应急预案体系有机结合。
制定信息系统灾难恢复过程中所需的任务、行动、数据和资源文件, 以备不时之需,一旦系统出现重大故障即可采用应急预案恢复系统,确保容灾系统能够发挥作用。建立一个完整的灾难恢复预案是一个周而复始、持续改进的过程。
(4) 为使相关人员了解信息系统灾难恢复的目标和流程、熟悉灾难恢复的操作规程,应组织灾难恢复预案的教育、培训和演练,不定期的做好容灾应急演练。只有通过反复的容灾切换演练,才能发现并处理灾难恢复预案中潜在的问题,以保证灾难来临时,系统能顺利切换至容灾系统,保证业务的连续性。
在运维过程中不容易被发现的问题:
1) 通常存储 之间的镜像会自动同步数据,但是在一个 存储 出现问题断开链接关系的时候,一般系统没有在前面板告警,没有亮黄灯。所以需要管理员经常检查系统的状态 才能及时发现问题 。
2) 存储替换升级需要考虑系统之间的兼容性,比如存储微码升级工作,要关注连接存储的所有主机,确认与操作系统 、 主机存储驱动程序 、 主机HBA卡微码,存储虚拟化设备等等的兼容性 ,关于 兼容性风险 不注意检查 会留下隐患。
3) 规避迁移相关的风险, 迁移方案的不合理或者升级替换过程中触发了其他的风险隐患,从而出现了风险叠加 , 迁移前的健康检查做的越细致,风险也会越小。
2、医疗行业建设容灾备份平台可以取得哪些具体的收益?对于同城灾备中心的日常资源利用是如何开展的?
@czhe 医疗行业:
医院的同城灾备中心 建成后可以应对设备的硬件故障(包括逻辑故障和物理故障),生产机房火灾、漏水等突发情况,不会造成数据的损失,业务数据能够定时备份, 可 以在灾难来临时从备份点恢复,故障发生时容灾系统能够接管应用对外提供服务。医院建设同城灾备中心后实现了以下方面的业务提升:
1) 由于 生产中心及同城灾备中心数据的一致性,因此灾备中心在平时可将这些数据用于 业务系统或应用的 测试、开发及培训等 ,即实现了数据资源的有效利用同时可以保障数据安全提升业务连续性。
2) 同城灾备中心建成后服务器和存储等资源的处理能力再利用,数据处理系统可 供 测试机和开发机使用,运行数据仓库和数据挖掘等应用系统。
3) 对于医院的非关键业务可以部署在同城灾备中心,这样可以节约生产中心紧张的机房资源和电力资源,同时充分的利用灾备中心的资源,避免资源的闲置。
4) 建立了灾备系统相应的运维方案,故障处理办法和备份恢复演练计划,备份后的数据可用性得到保障,提高了医院的应急响应能力和抗风险的能力。
发表评论
暂时没有评论,来抢沙发吧~