贵州省骨科医院:基于双活信息中心的高安全运维管理平台建设实践
2023年医院新兴技术创新应用典型案例征集活动正在进行中,欢迎各医疗机构踊跃提交案例。CHIMA将组织专家对案例进行评选,入选典型案例将在CHIMA 2023大会路演并获颁证书。
1项目简介
(1)项目背景
在当前政治形势、经济形势复杂多变情况下,医疗行业面临重大的风险和挑战。在竞争越来越激烈的今天,“患者至上”是贵州省骨科医院建设和发展的根本指导思想。
为了实现医院管理的科学化、现代化、数字化,适应现代化医院的医疗、科研、教育和管理的要求,贵州省骨科医院建立以HIS系统、LIS系统、PACS系统、决策系统、OA系统、电子签名系统和移动APP系统等为基础的智慧医疗管理体系,实现数据全面共享。数量庞大的系统必然产生海量数据,对于软件系统而言数据就是根本,任何操作、分析、结算等等都从数据库中提取。从某种意义上说,数据安全成为了现代医院信息系统安全的重中之重。一旦数据丢失或者业务系统宕机,对医院来说都会产生重大的影响和损失,甚至影响患者生命安全。
贵州省骨科医院是贵州省卫生健康委直属的三级甲等骨科医院,形成了以骨外科为支柱、疼痛科为特色、骨内科为基础、康复科为保障、微创治疗为特色的学科体系。医院现有南明、白云两院区,总编制床位数1600张,创新性的采取了“一套班子、一个团队、精细化管理、亚学科互补和差异发展”的一院两区管理模式,力求提升两院两区的管理效率和水平,特别是近几年现代化医院建设进程逐步加快,贵州省骨科医院率先在院内引入了5G+医疗、云计算、智慧院区管理、物联网、智慧停车、智慧消防、智能发药系统等先进技术,通过丰富的信息化系统的功能助力业务流畅运行,为医护人员及患者带来了极大便利。先进的系统给医院、患者带来便利的同时也对底层硬件平台性能提出了更高的要求。
按照传统采购独立服务器、存储和网络设备的模式,不光难以承载现代医院大量的信息系统基础设施需求,对管理上也带来极大的困难,同时也会造成机房面积和能耗的过度使用,不满足现代医院精细化管理的趋势和要求。因此,医院急需一个安全、易用、稳定、高性能、高可靠的硬件平台来支撑业务的飞速发展,从而为医院提供更加强大的医疗信息系统,实现全面的数据互联互通,为患者提供更好的医疗服务。
(2)项目概述
为适应医院快速发展变化,应对各类新业务模式的出现,就需要应用新技术来为这些新业务需求提供强有力的技术支撑。在实现整体信息系统稳定运行的基础上,还要满足低能耗、省空间、易管理、可扩展、高安全等精细化管理的要求,不光对患者提供智慧医疗服务,更要从医院内部真正实现智能管理措施。
该项目主要为医院管理解决以下重大问题:白云院区信息中心建设标准和完善程度远高于南明院区,因此需要在不间断业务的情况下,将医院核心服务器从南明院区迁移到白云院区;白云、南明两院区服务器要能够统一管理,便于维护;有较高的扩展性能,能够根据业务的拓展,灵活增加服务器系统及相关配置;解决多VLAN连接服务器的难点;从系统层面解决服务器系统及数据快速、增量备份,以及短时间、多模式恢复的难点,确保系统和数据安全;能够根据人员类别设置服务器管理权限,避免错误及越权操作。
因此,在项目建设整体规划思路上,需要充分考虑数据中心的高拓展性、高可靠性和易管理性。在建设过程中,应充分合理利用投入,避免重复、过度建设,造成资源浪费;同时,能够较好地兼容各种主流软硬件,满足未来多年的发展需求。在项目设计中充分使用各种保障技术来确保系统稳定运行,如线路冗余、设备冗余、数据灾备等;需要具备严密地监控和易维护的特点,以确保系统能够及时发现隐患,快速排除故障。
贵州省骨科医院经历了大量的途径探索与实际调研,同各渠道专家进行技术和可行性论证,最终确定了采用以虚拟化、私有云为主导的“新一代医院数据中心”建设方案,该方案基于标准化超融合基础架构,构建高可用双活数据中心。超融合延伸集群分别在白云2号楼信息中心机房、白云1号楼机房和南明信息中心构建了不同服务器域,用以医院所有医疗相关业务系统,实现两地三中心的高安全性融合。所有数据写入超融合存储系统时,分别在白云两个双活数据中心建立数据副本,并通过IO双写实现数据强一致性。针对系统和数据安全管理面临的耗费精力多,难度大等挑战,通过超融合统一的数据备份安全运维管理平台,对整个超融合内所有系统和数据进行全生命周期管理、数据保护、自运维等,从而有效简化系统和数据安全运维,保障安全。最终打造了高性能、高可靠、高安全、易运维的智慧医院底座,助力贵州省骨科医院专注业务创新。
2建设方案
(1)建设目标
1)业务高连续性:利用私有云计算技术的优势,解决硬件故障、网络故障、电力故障等突发性故障带来的业务系统宕机风险,在数据中心发生故障时,核心业务系统要实现系统和数据不丢失,业务系统需要在最短的时间内恢复业务,以保证医院业务可以连续。
2)系统和数据易运维:按照传统模式,不同的系统和系统内应用数据,缺乏统一的备份和恢复软件,通常需要各种软件组合使用甚至停机冷备份,安全措施薄弱,效率低下,不便于统一管理,亟需一个高性能管理平台进行系统和数据安全管理。
3)系统高可用:部署业务系统的高可用方案本身比较复杂,需要依赖较多组件,这也需要运维人员投入更多的精力去维护。但往往也很难真正做到高可用,偶尔还是会出现问题或系统终端不可用,且需要花较长的时间去恢复,而这又带来了一段时间的业务中断,对于医院关键医疗业务是不能中断的。因此,亟待有产品或方案能提供更有保障的系统高可用。
(2)方案设计
项目针对医院的信息系统、网络环境、基础资源进行调研,规划了超融合双活数据中心解决方案,考虑到方案的可扩展、易运维、高性价比,经过对比论证,传统存储双活数据中心建设方案存在许多不足,比如:专属设备(双活网关)采购带来的高成本投资,各类专属系统的复杂运维问题等。因此,医院最终选择基于分布式架构的超融合基础设施,通过超融合集群跨站点延伸方案,实现计算和存储层的高可用架构,并结合负载设备实现物理网络与虚拟化网络的统一编排与调度。整个超融合双活数据中心架构由三个部分构成:超融合基础设施、应用高可用方案、灾难可恢复能力。
超融合基础设施:整个双活数据中心建设的基石,基于通用x86硬件服务器,集成计算虚拟化(KVM)、存储虚拟化、网络虚拟化以及安全虚拟化软件,为医院信息中心提供业务承载需要的基础IT元素服务。超融合基础实施采用全分布式架构,天然具备高可用优势,基于超融合扩展双活数据中心能力,实现计算、存储、网络完全的跨双活数据中心统一编排与资源调度,并为各种系统、应用软件和中间应用的双活部署提供了实现的基础。
灾难可恢复能力:双活数据中心采用裸光纤互联的大二层方案,实现双活数据中心大二层环境,超融合资源可以在双活数据中心之间实现二层的互通。为业务系统集群部署提供了必要的条件;通过云管理平台实现了双活数据中心的统一管理、服务申请、双活策略管理、用户管理等能力,简化运维。
此外,针对我院的系统和数据运维过程中遇到的挑战,建设了集中运维管理平台,该平台提供了系统和数据业务承载的高可靠方案,保障系统和数据业务连续性。通过云原生业务系统,可以实现业务系统快速自动化部署,保障业务快速上线,解放运维人力。通过对系统和数据多个层次的监控,配套相应的巡检能力,可及时发现问题和隐患,逐步由事后响应向事前预防过渡。另外,借助集中运维管理平台,无需依赖第三方的软件,即可实现基于事务一致性的系统和数据备份,有效规避数据丢失风险,且支持基于任意备份点恢复,可即时验证系统和数据备份有效性。
3关键技术
(1)本地数据备份设计:新建平台集成了数据备份能力,基于CBT技术,通过位图方式跟踪记录虚拟机数据块的数据变更情况,在备份存储上保存完整备份数据全量与增量数据,在遇到业务逻辑故障或病毒感染等情况下,业务系统恢复到某一历史时刻状态。
(2)业务层双活设计:当系统运行双活业务时,贵州省骨科医院主备机房中任意一个站点的虚拟机发生故障,故障站点的业务会自动切换到健康站点,不影响医疗业务系统的连续性。通过对启用了故障迁移功能的虚拟机所在节点进行集群心跳检测,每隔5秒检测一次虚拟机状态是否异常,当发现异常并持续时长达到用户设置的故障检测敏感度时(比如10秒),切换虚拟机到其他主机运行,保障业务系统的高可用性,极大缩短了由于各种主机物理或者链路故障引起的业务中断时间。
(3)存储层双活设计:存储层面提供副本冗余机制加仲裁节点的方式为医院系统数据提供同步及一致性的安全保障。最低支持2副本+1仲裁节点的方式部署,以2副本为例,在业务双活环境中,两个数据副本会互斥地分布在两个机房上(如下图:两个机房即为两个故障域,数据实时存储到2个机房即为2副本)。并且会根据主备机房之间的网络带宽智能地调整数据分布策略。
业务数据会以多副本形式写入存储卷,在超融合平台组建延伸集群后,运行在延伸集群中的业务数据多副本将同步双写到两个数据中心中,并在收到两个数据中心写入完成确认后,认为一个写入IO完成,才能进行下一个IO的写入,保障数据副本的一致性;业务正常运行时,优先访问本地数据副本,当本地数据副本无法访问时,切换为访问异地数据中心;因此主机房内发生硬盘/主机故障时,数据从备机房读取,跨站点进行重建,最大限度减少了业务宕机时间,业务系统和数据多重保障不丢失,业务无缝接管。
(4)系统双活设计:承载核心业务的系统采用RAC集群主方式部署,此模式下,两个机房上的业务系统节点可以同时承载业务。当两个机房上部署的业务系统节点数相同时,若机房之间的网络发生故障,将会自动判断正常运行的机房,并连接业务,确保业务连续。
(5)网络可靠性设计:双活数据中心机柜通过汇聚交换机进行万兆上联到主数据中心机房的核心交换机,双活数据中心之间部署万兆裸光纤用于构建数据中心之间的大二层网络。
(6)CDP持续数据保护:平台支持CDP保护模块,无须安装第三方软件和插件,是虚拟机级别的CDP方案,具体功能如下:
虚拟机首次CDP时,虚拟机每个磁盘都会做一次全量备份,生成一个全量备份,后面的所有恢复点都依附于此备份;
每隔5秒创建一个RP(Recovery Point恢复点);
每隔1小时(时间可配置)会强制创建一个增量备份;
基于某个RP点进行数据恢复时,会将该RP点到最近BP点的所有IO记录和该BP点之前的所有BP备份数据做合并。
(7)存储分卷:根据不同虚拟机的性能和容量要求选择存储卷。对于性能要求较高的业务其数据的存储位置选择在全闪存卷上,对于性能要求一般容量要求较高的业务其数据的存储位置选择在混合配置的存储卷上。
根据不同虚拟机的性质选择存储卷,进行故障隔离。对于生产业务的虚拟机选择其数据存储在特定的存储卷上,对于测试业务的虚拟机选择其数据存储在另一存储卷上,实现故障的隔离,即使测试业务的存储卷完全故障了,也不会牵连到生产业务的虚拟机和数据。
4应用效果
通过该项目的建设,医院将一百余套医疗业务相关系统,成功转移到超融合服务器上稳定运行,且运行更加稳定,管理更加高效。医院信息中心可以便捷对全局业务系统运行状况作总览,包括系统、平台的监控告警信息、平台自愈统计、备份统计以及租户配额使用情况。支持30多种监控报表展示,可视化管理数据库监控情况,可以对全局数据库进行统一的监控;并可导出巡检报告,从各个维度简化运维复杂度,提高整体系统的生产效率。
5总结
综上所述,本次项目通过在贵州省骨科医院搭建双活数据中心以及数据库运维管理平台,医院业务高可靠、高可用、高安全以及易运维得到最大的保障,满足三甲医院《全国医院信息化建设标准与规范》。双活云数据中心在提供计算、存储、网络资源、跨数据中心双活、数据持续性保护等众多强大功能的同时,整体架构的管理做到了统一而简单,管理员只需借助单一的WEB管理台界面,既可实现全部资源及功能的统一管理,又能针对医院所关注的应用服务进行7*24小时的健康度检查,对于核心业务应用(如HIS、PACS、LIS等)还进行基于关键指标的智能监控,在业务故障前实现预警,运维管理轻松便捷,能够更加聚焦精力于智慧管理和智慧服务等业务创新。
申报单位:
贵州省骨科医院
联合申报单位:
深信服科技股份有限公司
技术方向:
医疗云
业务领域:
医学科研