郜勇:基于云架构的多院区同城双活灾备系统建设探索与实践

发布时间:2024-07-16
浏览次数:

  创建于1866年的华中科技大学同济医学院附属协和医院(以下简称“武汉协和医院”)是中部地区历史最悠久的委属公立医院,见证了西医文明在中部的起源和发展。医院目前拥有主院区、车谷院区、肿瘤院区和金银湖院区,采取四位一体的立体化布局,实现了同品质医疗、一体化管理。医院信息与数据中心主任郜勇在CHIMA 2024大会演讲时介绍:“为实现多院区一体化管理,我们的四个院区用一张网络连接起来,实现了网络通、信息通和数据通,这是开展多院区业务协同的基础。”

9.jpg

构建灾备体系势在必行

  灾备体系建设关乎业务连续性和数据安全性,因此,国家出台了相关的标准和要求,其中《信息系统灾难恢复规范》将灾备恢复等级划分为6个,RTO(Recovery Time Objective)和RPO(Recovery Point Objective)为评估灾备体系建设的重要指标。根据等保2.0的要求,不同等级对数据备份恢复和灾备提出了不同要求,例如提供异地实时备份功能、重要系统和数据库的容灾备份,制定应急预案,定期进行演练。

  对此,郜勇强调:“医疗行业从评级评测指标分析,业务容灾是体系建设,不仅需要机房、服务器、存储、网络等硬件设备,还需要配备专业管理人员持续值守。互联互通五级乙等容灾核心指标RTO、RPO小于15分钟,更是对医院容灾建设提出了很高的要求。”

  当前,向多院区协同高质量转型发展是武汉协和医院建设的管理目标,其服务理念由“以疾病为中心”转向“以患者健康为中心”,管理模式是由粗放的行政化管理转向全方位的绩效管理,由此实现服务随手可及、业务顺畅协同、资源高效共享、数据海量汇聚以及调配灵活弹性的目标。

  医院业务连续性对灾备体系提出了新要求。“我们计划构建同城双活中心,核心系统达到应用级双活,重要系统达到应用级灾备,所有应用实现数据级备份。”郜勇指出,医院围绕新的数字基建方向,打造了云计算中心,推动业务深度上云,加快医院数字化转型和智慧医院建设。

设计与规划灾备体系

  “随着越来越多的传统应用向云原生渐进式演进,数据中心建设将从传统的虚拟化架构向云计算中心转变,即时开发、部署软件的SaaS模式将成为主流。结合行业经验以及技术发展趋势,武汉协和医院选择基于云架构的灾备体系建设方案。”郜勇强调,结合医院信息化建设现状以及业务发展特点,武汉协和医院选择建设基于云架构的两地三中心灾备系统,打造“多云协同、多域灾备、分级云管、自动灾切”的多院区架构和系统,围绕这个目标制定武汉协和医院云平台和灾备体系建设的长期规划。

  武汉协和医院制定了灾备中心建设演进路线,采取的是三步走策略:第一阶段,推进金银湖院区上云,构建同城双活云架构;第二阶段,多院区形成一朵云,实现核心业务逐步上云,统一架构、打通资源、统一管理,完善云上业务级灾备体系;第三阶段,构建异地灾备中心和公有云资源中心,实现两地三中心架构。

  郜勇指出,武汉协和医院灾备体系建设从两个层面开展:第一个层面是灾备管理目标,围绕着谁要做、谁来做、怎么做、如何用这四个维度,具体内容包括应用系统分级分类(这是灾备设计的关键)、容灾组织、容灾切换及演练、容灾标准规范;第二个层面是灾备技术架构,包括应用双活支撑架构设计、故障切换架构设计以及数据备份架构设计。

  “我们的灾备系统优先建设的是医院8大核心业务系统。”郜勇强调,根据前期对业务系统的详细分析,武汉协和医院将业务系统分为三类进行灾备建设:第一类包括HIS、电子病历、LIS和PACS,灾备定级为五级,实现应用双活,RTO和RPO均实现≤15分钟;第二类包括集成平台、官微、移动护理和支付系统,灾备定级为四级,实现应用主备,RTO≤30分钟,RPO≤15分钟;第三类为其他业务系统,实现数据全量备份。

  武汉协和医院根据应用灾备等级的划分来进行灾备方案设计,灾备体系建设按照分层设计的理念和方法,从医疗应用出发,从管理、应用、计算、数据库、网络等多个层面构建基于医院应用系统级别的容灾体系。

  在郜勇看来,灾备体系建设除安全可靠的架构外,还需要自动化的切换平台来保障整个灾备体系的运转。武汉协和医院选择具备IT多维度管理的容灾平台:提供100%全视角的流程监控,实现业务可视化;提供灵活的流程编排工具,实现自动灾备切换;提供机房三维呈现,实现全域可视。

  为保障灾备体系高效有序进行,武汉协和医院量身定制了灾备切换流程:容灾切换涉及预警、启动、切换、解除及回切五个阶段,容灾管理体系下相关专业组织分别参与应对,涉及内容包含事件升级、应急启动,社会公关,技术切换、业务应急等关键步骤。

加强灾备体系运维

  灾备系统建设交付后,日常的运维管理尤为重要。对此,郜勇表示:“灾备运维服务内容包括基础系统运营管理、业务连续性管理、灾备人员组织管理三个方面”。

  为保证武汉协和医院灾备系统的可用性,武汉协和医院制定了配套的应急演练工作计划,容灾演练工作分为3类演练:1个桌面演练,2个实战演练分别针对流程、系统及整体业务容灾进行演练。

  郜勇指出,基于云架构的多院区同城双活灾备系统具有以下意义:

  1.通过构建协和医院私有云,实现多中心一体化,为武汉协和医院业务上云打造了资源共享、数据融合、架构高可用、弹性可扩展、运维简易的基础设施底座;

  2.实现同城双活应用级别的灾备,并向两地三中心模式递进,保障了业务系统的不间断平稳运行,提升医院的业务连续性;

  3.充分利用双院区已部署的IT资源,提高资源复用率,从而提升投入产出比;

  4.通过灾备管理平台,既能实现灾备系统的自动化切换,保障业务连续性,又能实现对多院区多云资源的统一监控,提升全院运维效率。

  “医院信息化基础设施如果不牢固,必然会对整个业务的连续性来带影响。创新来自于守正,守正则源于信息系统的安全为业务连续性提供保障,反过来又能推动创新,由此产生更高端的应用。”郜勇总结道。