马丽明:推动医院信息系统业务连续性管理

发布时间:2019-08-26
浏览次数:

随着医院信息化建设的普及和深入,信息系统连续的重要性日益凸显。要提高医院信息系统的连续性和稳定性,需采取相应措施保障信息系统安全,降低突发事件概率。在CHIMA 2019大会上,佛山市妇幼保健院信息中心主任马丽明详细阐述了推动医院信息系统业务连续性管理的方法。




以下内容根据马丽明主任演讲内容整理。


佛山市妇幼保健院是一所集医疗、保健、科研、教学、信息管理、健康教育六大功能于一体三甲专科医院,是佛山市妇幼保健业务的指导中心,2015年通过德国KTQ医院质量认证。设有妇、产、儿等多个重点学科,其中产科2011年成功实施亚洲首例开放式子宫内胎儿手术,妇科阴式系列手术连续20年位居全国领先。


医院信息中心现有专业技术人员20名,硕士6名,本科以上占比100%,其中已考取高级职称4名。信息中心自行负责数据库、数据中心的运维,承担HIS、电子病历、BI等等开发与维护,同时负责佛山一市五区58所产院及200多个社区的区域妇幼信息化建设和管理。


医院信息化建设起步于1992年,2004年实施结构化、一体化电子病历, 2007年参与国家区域信息资源规划,先后参与区域平台、区域健康档案、电子病历数据标准、妇幼系统功能规范、居民健康卡等标准的研制,并把成果应用到工作中,2015年实现移动智能,包括门诊、住院、保健服务,以及临床诊疗、后勤服务、办公管理的互联网应用,覆盖院前、院中、院后的医疗服务全流程。



医院信息系统业务连续性管理的需求源自于人们的风险防范意识,其中核心是容灾系统。


信息系统容灾是指建立两套或多套功能相同的IT系统,系统之间能够进行健康状态监视和功能切换。容灾系统的目标是保证业务的连续性,灾备效果取决于数据恢复时间的长短。如果恢复时间过长,则不存在业务连续性。容灾目标是缩短恢复时间,终极目标是消除这个时间。


按照对系统的保护程度,容灾系统大致可分为三种:


一是数据级容灾。强调的是数据的远程备份,确保原有数据不丢失,它的费用较低,构建实施相对简单,但应用可能会中断,恢复时间也较长。


二是应用级容灾。是在数据级容灾基础上,再构建一套相同的应用系统,保证关键应用在允许的时间范围内能够恢复,它需要更多技术实现快速切换,确保业务的连续性,系统建立相对复杂,不仅需要一份可用的数据复制,还需要网络、主机、应用、甚至IP等各资源间良好协调。


三是业务级容灾。它要求更高的全业务灾备,包含很多非IT技术,如办公场地、供应商、供应链的管理等。


业务连续性管理是一个体系,是容灾技术的升华概念,是相关所有活动的一个集合。它是由计划和执行过程组成的策略,覆盖了技术和操作方式,目的是保证机构信息流在任何时候及任何状况下都能保持业务连续运行。策略通常以服务器及主机为核心,包括预算、IT系统、基础通信设施、人员培训、应急演练、安全防范等重要环节。


业务连续性总体设计的主要依据是《信息安全技术网络安全等级保护基本要求》、《信息安全技术信息系统灾难恢复规范》、《 数据中心设计规范》,同时还可参考《ISO27001信息安全管理体系》、《BS25999业务连续性管理的标准》等要求,但最关键还是结合自身业务、资源等实际情况进行量化设计。


医院信息系统很复杂,系统从客户端发送请求到服务器,服务器返回数据到客户端,中间经历非常多的环节,就像人体一样,虽然只是动一个小手指头,但却需要人体八大系统协调配合。因此,医院在做业务连续性总体规划时,要从物理层、网络层、接入层等综合因素进行考虑,要结合医院的实际情况,正如每个人的体质不同,每家医院的现有条件也是不一样的。


业务连续性管理的核心基础是IT备份和恢复。整个系统的高可用性,是通过每一层的冗余加上自动故障转移来综合实现的。在硬件层面上,设备性能需要满足业务处理能力且满足业务高峰期需要,服务器、存储、核心交换机等关键设备要冗余配置,同时关键设备的关键部件,如电源、CPU等也要冗余配置。


容灾系统主要分为以下四级:


第0级:没有备援中心,数据本地备份。备份数据只在本地保存,没有送往异地。


第1级:本地备份,异地保存。成本低、易于配置。但数据量增大时,存在存储介质难管理,难以及时恢复等问题。这个级别的容灾,需要注意预先确定数据恢复的先后次序和步骤,确保关键业务数据优先恢复。


第2级:热备份站点备份,异地建立热备份点。使用同步或异步方式通过网络进行数据备份,不承担业务。当出现灾难时,备份站点接替主站点的业务。


第3级:活动备援中心。两个数据中心,都处于工作状态,并进行相互数据备份。当某个中心发生灾难时,另一个中心接替其工作任务。这个要求最高,需要的资源和投入也是最大,但发生灾难时,它的恢复速度最快。


容灾系统设计时需考虑包括备份/恢复数据量的大小、应用数据中心和备援数据中心之间的距离、数据传输方式、灾难发生时所要求的恢复速度、备援中心的管理及投入资金等因素,并根据以上因素,结合自身业务状况确定选用的等级。


系统的可用性是系统正常运行时间的百分比,是架构组最主要的KPI,此外,还有复原时间目标(Recovery Time Objective,RTO)和复原点目标(Recovery Point Objective,RPO)。RTO主要指企业所能容忍的业务停止服务的最长时间,RPO主要指业务系统所能容忍的数据丢失量。两者没有必然的关联性,不同业务RTO和RPO需求不同,不同企业的同一种业务,RTO和RPO的需求也会有所不同,理想是两者皆为零。


各分项设计包括机房设计,以及网络、接入层、应用层、服务层、数据层服务器、存储等的高可用设计。


1.机房设计。机房是信息系统业务连续性的基本保障(可参考四星级IDC机房标准)。首先,在机房选址上,除了要考虑防震、抗灾、抵御强烈的风暴外,还要避免顶层或地下室以及用水设备下层或隔壁。其次,在机房材料选择上,要注意选择耐火材料,安全为主、装饰为辅。同时,机房放置的往往不只是医院信息系统使用的设备,可能也会涉及一些经常需要正常运维的设备网或运营商的设备,因此,这些设备要避免混杂在一起,尽量分成独立的物理区域进行管理,这样有利于降低日后的运营管理成本。


构建双机房时,要考虑多方面的因素,例如:机房间的距离远近,光纤部署方式是单模还是多模?双活机房间的群集系统通讯心跳时间是否满足?机房间的系统硬件配置是否一致?是否存在低配机房性能无法接管高配机房业务系统?建议采取双活机房模式时,两机房之间的距离小于100KM。


供配电是机房设计中最重要的部分之一,双回路市电+发电机+UPS供电模式几乎成为机房设计的标配,但是,需要特别注意UPS供电的范围,建议UPS的供电保证到配线间,有条件的甚至可考虑机房空调的供电。


此外,防水、空调、照明、消防、安防等均需要严格按照国家的规定进行设计,保证机房平稳安全运行。


2.网络高可用设计。它是业务连续性的保障之一,而且是非常重要的一个组成。其中,主干和水平子系统一定要做冗余配置,建议采用多条物理链路连接,并配置链路聚合。A级数据中心的核心网络设备应采用容错系统,并应具有可扩展性,相互备用的核心网络设备宜布置在不同的物理隔间内。同时要做业务、心跳、备份链路隔离,这是链路高可用的一个很重要的保障。


现在很多医院是多院区的,在做异地机房互联时,建议用两对以上的光纤链路,同时要求运营商的光纤链路设计要端到端的双路由,走不同管道,从不同的入口进入院区。


网络分区分域管理,是国家信息安全等级保护的要求,也是医院自身降低风险的需要,因为很多医疗设备、监控设备,由于特殊性无法安装准入系统和杀毒软件,需要根据不同特点对网络进行分区隔离,采取不同的管理措施。从我们自身经验来看,网络基础安全配置,是目前最有效、性价比最高的一种安全防护手段。医院可以通过相应的管理策略,降低整个网络安全运维的风险。此外,建议做好网络边界防护,部署准入控制系统,定期清查无用端口。


进行网络高可用设计,在构建容灾系统时,需要建立多层次的网络故障切换机制,才能确保快速反应和迅速的业务接管。建议至少包含以下机制:本地系统安全机制、远程数据复制机制、远程故障诊断机制和故障切换策略。


3.接入层的高可用设计。主要考虑可用性、扩展性,可使用反向代理+负载均衡等技术,使请求可以均匀分摊到后端的操作单元执行。


4.应用层高可用设计。建议在应用层不要包括复杂的业务逻辑,只做呈现和转换。可以通过负载均衡转换和高可用进行对外接入,同时做好程序的更新备份与回退机制。


5.服务层高可用设计。尽可能把服务微小化,同时,业务领域的每个子域单独一个服务。要对服务进行分类分级,采取分而治之的管理办法,对服务的设计、部署、上线发布等各个环节进行管理,建议核心服务可采取独立服务器且N+1的部署方式。


6.数据库高可用设计。主要使用Mongo DB等分布式数据库或使用数据库软件自身的高可用机制,如ORACLE RAC等方式实现。合理使用缓存,数据、应用分离,数据读写分离是高可用数据库架构最常用到的方法。对于访问量大的数据库可做读写分离,对于数据量大的数据库可做分库分表,不同业务域数据库做分区隔离,重要数据库配置备库。


7.服务器高可用设计。传统服务器虚拟化和超融合虚拟化是目前实现服务器高可用的两种主流技术,两者各有优缺点,应根据自身业务特点选用适合的实现方式。


8.存储的高可用设计。存储虚拟化技术和分布式存储技术是目前实现存储高可用的两种主流技术。


信息安全从来不是信息部门单独的事情,必须全员的配合。医院应把业务连续性管理融入到组织文化中,完善相关组织架构、制度流程和操作规范,落实经费、明确人员及岗位职责,并建立应急管理机制,明确安全事件发现报告和处理流程。业务连续性方案和方针管理中,需特别关注人员教育和培训,应不断根据新的安全动态,制定和修订相应的安全计划和制度。同时,及时在全院开展相关的培训与学习。我院在每年新员工岗前培训、中层会议上,进行信息安全基本知识培训,收效显著。


制订业务连续性策略,要根据医院的实际情况,进行业务影响分析、风险评估,以及连续性资源分析,然后根据分析的结果,制定业务恢复指标。它一定是有差别化的业务恢复策略和业务恢复预案,其中必须包括关键业务资源恢复、业务替代手段和数据追补和数据恢复的优先级等。


制定和实施业务连续性响应时,需建立并实施覆盖重要业务的连续性计划;制定总体应急预案及重要业务专项应急预案;要与公共事业部门、同业单位、外部金融服务平台建立有效衔接;应要求重要业务及信息系统的外部供应商建立业务连续性计划,并证明其业务连续性计划的有效性,建立重要供应商备份制;应急预案应内明确数据追补方案和业务替代手段;建立危机公关,做好舆情监控和引导。


服务器永不宕机,是所有医疗信息化人士的共同期望。我们在业务连续性管理中,应做到事前有预案、事中有响应、事后有监测,并在故障事件处理过程主动告知、及时回应、合理引导,为医院临床和管理业务的可持续运行提供安全保障。