俞磊:集成平台运维及问题管理
大型三甲医院的规模化、集团化发展已成为医疗行业的重要趋势之一。“构建统一的集成平台对于提升医院数据交换和信息共享能力至关重要,因此集成平台的建设也理所当然地成为医院信息化的重点工作之一。”上海市第六人民医院信息处处长俞磊介绍。
集成架构的演变
俞磊谈到,信息集成架构演变经过了点对点、SOA、微服务三个阶段,三种不同架构存在以下特点:
1.点对点架构可以实现系统间信息交换的“一对一”,从而实现业务系统数据交换的目的,这种连接方式在连接对象比较少的时候,确实是简单和高效的,它具有开发周期短、技术难度低的优势。但是当连接对象多的时候,连接路径会以几何级数方式剧增(Cnm),而且架构接口繁多,结构复杂、耦合度高、扩展性差、运维管理难度大,该模式越来越难以满足如今日益复杂的医院业务。
2.SOA架构是基于一系列Web标准或规范来开发接口程序,并采用支持这些规范的中间件产品作为集成平台。它是一种开发思想,是一种松耦合的架构,主打标准化,本质上是一个总线型或星型的结构,所有服务的对接需要依赖于这个“中心化”的总线。
3.相比于SOA架构,微服务架构将原来的服务拆分为多个更细粒度的单元,这些小应用间通过服务化完成交互和集成,它主打敏捷开发,可独立部署,灵活扩展,实现资源有效利用,但需要一个设计良好的监控系统对各个微服务的运行状态进行监控,这样运维人员才能够对系统有细致的了解和更好的运维。
对于架构的选择,俞磊建议:“多种架构的融合可能更加符合现有医院信息化生态需要。在信息化建设过程中,究竟使用哪种架构应根据应用需求来权衡它的利弊。”
集成平台主要组件
集成平台的组件主要包括调度器、容器、服务网关、负载均衡、服务注册、配置中心、消息队列、分布式缓存、数据库。
俞磊介绍,作为医院集成平台的关键技术组件,医院整体各系统的数据交换与通信都基于集成引擎来进行,这对于集成引擎服务的可用性提出了非常高的要求。因此,为确保集成引擎能够正常长期稳定的运行,需要进行即时的监控和维护。另外,集成引擎中所有服务的生命周期管理、测试管理、授权与订阅管理以及服务的性能情况也都要进行专项的监管。
在当前,微服务架构大量采用开源的组件,需要持续稳定的运维服务。医院可以采取统一身份访问管理的措施,提供适合医院级组织结构的用户账号管理、统一身份认证和精细化的资源访问控制。
医院平台管理主要包括主数据管理和主索引管理,可构建平台主数据管理规范,确保数据语义标准,同时做好主索引管理,在挂号登记、急诊登记、体检登记、入院登记等各业务应用场景对主数据进行有效管理。
医院在进行系统运维时,要构建一个良好的安全架构体系,可从加强用户管理、访问控制、数据保护和监控等方面着手,确保信息系统安全。
“集成平台的技术复杂性让管理难度加大,就如同独轮车和无人驾驶汽车相比,维修保养均不可同日而语。”俞磊强调。
集成平台运维管理
俞磊介绍,当前医院集成平台运维现状是缺乏有效的运维监管工具和管理体系,管理内容和职责划分不清晰。
他建议,医院集成平台运维主要考虑以下情况:制订适合的管理规定,对运维、接口、人员、权限、监控、备份、应急、处罚进行约定;集成平台的稳定性是一个系统工程,往往应用系统的适配器故障率高;接口安全性应引起重视,接口质量也很关键,避免把服务公开暴露在内外网;单个消息避免过大,以免造成性能瓶颈,且要有拥塞处理机制;规范异常消息处理流程,防止错误消息造成业务数据不一致;采用集成平台的服务确保稳定,不贪大求全;医院应具备核心中间件的运维能力;要合理分析接口业务,在松耦合和紧耦合之间做好权衡。
医院集成平台的运维主要包括以下几个方面:基础设施管理、集成引擎管理、应用管理、数据管理、用户行为管理和环境变化管控。在具体实践中,集成平台运维可采取以下步骤:制订规章制度、明确责任权力、强化运维监管、评估安全风险、做好备份方案和制订演练应急预案。
在俞磊看来,医院集成平台由于其涉及运维的范围复杂,专业性强,因此建立完善的运维管理流程尤为重要,以保证其正常运行和稳定性。主要流程包括问题发现、登记、排查、处理和跟踪等环节,具体流程如下:
1.通过工具对平台各类运行指标进行实时监控,通过主动或者被动的方式及时发现医院集成平台出现的问题。主动方式主要可通过日常巡检、用户报修等渠道发现问题,被动方式可对监控指标设定预警,通过短信平台或者企业微信等渠道发现问题。
2.发现问题时应及时登记问题的描述、发生的时间和影响等级等信息并对问题进行分类,判断是软件故障、硬件故障还是其他原因,以便形成运维台账,便于后续形成运维知识库。
3.针对发现的问题进行排查和定位,可通过排查问题涉及的模块、系统日志、系统环境、硬件和网络等方面,确定问题,可先通过查询运维知识库快速定位问题和解决方案。
4.定位到具体问题后,就可以采取不同的措施进行处理,例如:修改配置、服务重启、软件升级、病毒检测等。但是处理问题前必须要评估解决方案的风险并制定应急预案,严格执行排除故障的过程。
5.针对已处理好的问题,应采取持续进行监控、记录日志等方式进行问题跟踪,确保问题已彻底解决,并将问题的完整解决过程记录或更新到运维知识库内,为以后类似问题的处理提供积累和参考。
除工具外,医院集成平台的运维管理还需要一个专业的运维团队来负责日常的运维工作。“运维团队需要具备一定的技术水平和专业知识,包括对硬件设备、系统软件、应用程序、数据库等的掌握和管理经验。”俞磊谈到,运维团队还需要具备良好的沟通和协作能力,与医院集成平台的用户、厂商等进行有效的沟通和合作。
医院集成平台的运维监控指标包括系统状态、应用程序状态、网络状态、数据库状态等指标。近年来,基于容器云技术的医院集成平台逐渐成为主流,它为集成平台提供了更好的可观测性和运维便利性,因此应根据容器技术的特性以及可能出现的问题,进行更深层次的监控和管理,以降低风险和保障系统稳定运行。
“医院集成平台是医院信息化建设的核心组成部分之一,主要功能是将医院内所有的医疗信息系统整合在一起,实现医院信息互联互通,对集成平台的运维和管理需要采取系统化思维、整体化运维、全局化部署。”俞磊总结道。
(本文得到了陆军特色医学中心黄昊主任的指导,在此表示衷心感谢。)