彭建明:谈医院中心机房一个巨大安全隐患

发布时间:2019-12-16
浏览次数:

彭建明



医院信息系统高可用一直都是我们HIT人追求的目标。我们医院1999年建设第一套双机热备集群系统,软件是使用WinNT和Rose,硬件IBM PC服务器和豪伟存储,运行医院核心HIS系统。2006年建设第一套Oracle RAC集群系统,运行医院核心HIS系统软件软件是IBM AIX、Oracle 10G RAC硬件是IBM P550小型机和IBM DS4700存储。由于建设集群价格昂贵,医院只对最重要的HIS系统建设了集群。其实各个业务系统都很重要,任何重要系统瘫痪都会造成医院医疗秩序的混乱。


我年轻时最大工作理想就是所有业务信息系统都实现高可用。2012年我的理想实现了,医院建设了第一套虚拟化平台,硬件是6台HP DL580、EMC VPLEX、EMC VMAX10K平台软件是VMware 5.5,所有平台上的业务系统都实现高可用2012年医院又上了一套备份平台。当时我觉得系统应该很安全了,应该不会再有什么大的风险。随后几年间发生了两件事,让我又重新思考中心机房的风险。


2019年3月,我接到一个陌生的电话,电话中的语气很焦急“我是某某单位系统管理员,我们这有22个Oracle数据库坏了,您是Oracle专家,我们该怎么办? Oracle数据库很健壮,把一台运行Oracle数据库的服务器,连续断电100次,坏的可能性都很小,22个Oracle数据库同时坏,这简直是天方夜谈,这和连续中两次彩票大奖的概率差不多。20多年的工作历练,使我能很好的控制自己的情绪,我耐心的和他交流了五分钟,然后我坚定的告诉他“根据我的经验,你们22个Oracle数据库真的坏了,用备份进行恢复吧,你也可以再问问别人,看有没有什么好的方法”。因为他遇到的情况和我在2014年9月9日遇到的情况,完全一样。当时我们一台核心存储控制器坏了一个,存储(存储是国际一线品牌中高端存储)上运行着医院HIS和EMR。下班后存储原厂工程师来换控制器,为了安全我提前做了较充分的准备工作,我提前做了数据库备份,停了Oracle数据库,停了RAC集群系统,唯一没有做的就是停IBM小型机AIX操作系统。灾难发生了,工程师在换控制器的时候,另外一个好的控制器发生了重启,造成了HIS和EMR数据库严重损坏,并且异地灾备机房中HIS DG也同时坏了。最后通过备份平台花费了十几个小时恢复了两个核心数据库,期间医院所有信息系统均不可以使用。所幸是晚上对医院影响不算太大。


那次惨痛教训让我刻骨铭心,我一直后悔没有彻底关闭小型机AIX操作系统。但这家单位的灾难事故让我重新思考这件事情。我当时应该做的没有错。这家单位的虚拟化平台由四台高端PC组成,平台上运行了46台虚拟服务器,其中有22台跑Oracle数据库。不可能为换控制器关闭四十多个服务器。具体分析两次灾难事故原因,应该是双控制器的存储架构有问题,存储为了保证数据安全,双控制器中Cache做了镜像。当一个控制器坏时,好的控制器Cache会被禁用。这时的存储就像一台没有内存的服务器,速度奇慢,这是医院不能忍受的。通常管理员都会强行启用Cache,这时如果掉电Cache中的数据全部丢失,这就是我们两家单位灾难事故发生的原因。


虚拟化平台在新疆医院使用的很普遍,全国医院情况也差不多。虚拟化平台中的存储隐藏着巨大安全隐患,这是每家医院都可能发生事故。我也在思考有没有好的方法,能够避免灾难的发生,由于我没有实践经验,我只是想抛砖引玉,希望有更多人去思考解决办法。


第一种解决办法:存储做镜像双活,但是我们当时在异地的HIS DG都坏了,这种解决方法建议存储厂家做充分的测试,否则医院花了昂贵的费用不能避免灾难事故,这个责任是医院和厂家都承担不起的。


第二种解决办法:超融合,超融合是一种比较新的技术,我们医院也是刚刚开始使用,没有太多经验介绍给大家,这种技术安全性和性价比,希望大家认真思考。


第三种解决办法:备份但是如果像这家单位22个或者更多个数据库同时坏,恢复也是一件可怕的事情。


第四种解决办法:使用四个控制器的企业高端存储,高端企业级存储价格昂贵,这也是医院要考虑的问题。


四种方法都是我的假设,最终希望存储厂商或者安全厂商能提供一个安全可靠、经济的解决办法。


事故解决了就是故事,希望我的故事能引起大家的认真思考,希望大家都不要有事故。年底是系统故障多发的时间,希望大家2019都有一个好结尾,2020也一帆风顺。


注:我在HIT专家网中写了一篇文章《亲历让我后怕的数据库灾难》详细写了2014.9.9那次事故,有兴趣的朋友也可以去看看。

彭建明

新疆维吾尔自治区人民医院信息中心主任,高级工程师,CHIMA常委。20年专注于医院信息化管理建设,一直致力于大型医院核心信息系统安全性、可靠性的研究,拥有丰富的医院信息化建设管理实操经验。曾帮助新疆多家大型三甲医院、多家县级医院和新疆大型企业、政府部门安装Unix或Linux环境下的集群系统和容灾系统,帮助解决系统故障和性能问题。以扎实的技术和认真的工作作风得到了广大同行的认可。通过学习与实践相结合,先后取得了Oracle 8I OCP 、Oracle 10G OCP 、IBM AIX小型机管理员证书、Cisco CCNA 网络管理员证书。


 
医疗信息化相关书籍上架,请点击此处查看