杨广黔:数据治理规划与实践助力医院高质量发展

发布时间:2023-02-28
浏览次数:

  2021年,国务院办公厅印发了《关于推动公立医院高质量发展的意见》,提出要提升公立医院高质量发展新效能。其中,高质量运营管理、全面预算和绩效评价等都离不开高质量数据的支撑。围绕临床诊治、医院管理和服务模式等都离不开数据的利用。为保证医院数据是高可用的,数据治理非常重要。在这方面,广州医科大学附属第二医院(简称“广医二院”)进行了诸多探索。在CHIMA 2022大会上,该院信息科主任杨广黔详细介绍了医院对数据进行治理的实践。

  以下内容根据杨广黔主任发言整理。

构建自己的数据中心

  广医二院信息化建设共分为四个阶段:第一阶段,是2000年以前,以人、财、物管理为主的模式;第二阶段,2009年开始,以电子病历为核心,建设面向管理、面向医疗、面向病人三位一体的管理模式;第三阶段,是2012年开始,主要进行平台化区域化建设,包括集成平台建设(ESB)、HRP、质量管理平台和区域医疗对接,实现了数据的共享和互认;第四阶段,2016年开始,建立了数据中心,包括临床数据中心、运营数据中心、科研数据中心等。在数据中心基础之上,医院开始数据治理和智能化应用,使管理迈向更精细化。

  广医二院的信息化主要从患者端、临床、后勤保障体系、综合管理、对外数据共享和数据安全6个方面进行建设,而所有信息系统建设的基础都是数据。如何利用好数据也是当前着力去做的一件事情。

  回顾医院信息系统建设之路,广医二院从很早开始就非常重视数据应用。医院最早的数据应用主要包括以下两方面:系统数据统计,制定科室定额;监控模块的建立,实时监测。早期数据应用的特点是基于业务系统,以报表为主,人工分析数据,做一些同比和环比。数据来源主要是业务库直接计算、日志还原叠加,而且是单个业务系统为主,也就是跨业务系统分析较少。最大的一个缺点是直接来源于业务库,多为五年以上的数据。

  为解决上述问题,广医二院考虑建立自己的数据中心。在进行数据中心规划时,医院主要考虑了以下几点:第一,在做任何数据分析和统计时,不影响生产库,生产库是针对业务而言,而数据中心只是作为分析统计、获取数据使用的,不能影响业务数据;第二,可跨系统、多维度收集和分析数据;第三,更换系统时依然可以保持数据的连贯性,可进行多年的数据对比。

  广医二院建立数据中心主要有三种方式:通过集成平台的消息;通过ETL数据采集工具;业务库做日志还原的备份库方式。医院对数据中心的定位是从横向、纵向两方面收集医院数据,关键在于数据的一致性及数据的及时性。医院对数据中心一个最基本的要求是,所有系统应用的数据来源都可以取自数据中心,同时数据中心里的数据都是能够不断扩展的。

  广医二院在2016年建立了集成平台,系统通过平台整合到一起,对信息进行了标准化处理。大部分数据中心的数据来自于集成平台的消息服务,少部分数据是通过ETL工具在业务系统进行自动采集。当时,医院业务集成情况如下:构建业务系统改造接口,接口涉及21个厂商、51个业务系统,原有接口484个,改造后接口275个;建立患者主索引,整理门诊、住院共534万患者信息,索引规则包括患者证件号、姓名、性别、出生日期和联系方式,信息清洗后生成患者索引数450万;设置术语字典,完成65个术语字典标准化,其中国际标准2个、国内标准8个、行业标准25个、院内字典30个;单点登录改造,实际单点登录改造系统32个,涉及厂商11个。

  数据资源标准化主要分为三个步骤:梳理各系统数据集、数据元现状及标准差异;对各业务系统进行改造,满足数据集、数据元标准;根据相关标准,建立完整的数据集、数据元管理平台。

  经过多年数据标准资源化建设,我们发现改造最多的系统是电子病历:病历模板改造数量为2062个,数据集改造数量为58个,数据元数据共10448项。首先,电子病历涉及的业务过程较多,同时电子病历里面有很多非量化的信息,要做到数据元和数据集标准,必须要改很多模板。然后再根据医院标准,建立数据元和数据集平台。

  在进行数据改造后,医院把2009年至今的所有临床数据、科研数据等都搜集到数据中心,在数据中心基础上,也完成了患者主索引、全文搜索等应用。

  但是广医二院在建成数据中心后,产生了一个瓶颈,即数据中心的数据是否质量很好,能否应用起来?经过检查后发现,数据中心的数据实际上有一定问题,因为它们是从业务系统里抽出来,但是数据之间的逻辑关系其实没有办法判断,并且没有办法进行合理的排除、清洗,导致有些数据多了,而有的数据却缺失了。因此,医院决定进行数据治理,以保证数据质量。

开展数据治理

  在进行数据治理前,广医二院首先研究了当前较为通行的数据治理模式。

  第一,数据治理前置模式。它是在原数据系统里面进行数据治理,治理后存一份数据在业务库里,然后把数据抽取到数据中心,提供给数据中心使用。这种模式主要缺点如下:当我们的数据治理规则改变后,每一个业务系统都得跟着业务规则进行改造,工作量非常大;标准的修改会导致数据矫正出现偏差。因为数据治理规范工程师不是一个专门的队伍,会让业务工程师去做治理。而业务工程师可能会对规则理解不透,因此导致治理出来的数据不规范,不符合标准。因此,在数据治理中一般不建议采取前置模式。但数据治理前置模式也有其应用场景,如上传卫生健康委健康平台,建议各个医疗机构数据前置后,再上传数据。

  第二,数据治理后置模式。原业务系统不变,同步历史数据和实时数据到数据中心,在数据中心里面保持一份数据原貌,如果标准修改只需要重新对标。然后根据数据治理的规则进行数据治理,对标完后由数据中心提供给其他部门使用。这种方式对数据治理而言会比较规范。这种模式也存在一个挑战,即实时数据治理的压力全部压在数据中心,对资源要求很高,而且会有一定的数据延时性。这种挑战对医院而言是可以应对的,因此数据治理一般会选择后置模式。

  在进行数据治理时,广医二院发现之前采集数据是基于集成平台进行,这种方式面临的一个最大挑战在于可能并不是所有数据都是经过集成平台采集的。因此,医院后来改变了数据采集模式,全部数据来源于源业务系统,在此基础上,采取的是智能数据采集的方式。

  这主要有两大部分:历史数据抽取和实时数据捕捉,尽量使数据湖里的数据和源业务系统数据保持一致。数据湖里的数据分为数据内容和数据结构进行保存,每个数据内容标注数据结构版本号。

  智能数据采集可以自动感知数据结构变化,但需要人工处理。在进行数据采集时,主要分为两大部分:第一部分是历史数据抽取,难点在于数据分割;第二部分是实时数据捕捉,需把握好频次。这两种抽取方式根据业务系统的数据库不同,进行数据抽取的组件方式也不同,因此在抽取数据时一定要小心。在进行数据治理时,先治理历史数据,再治理增量数据(理想状态),现实一般是按系统混合治理。

  智能数据治理系统主要涉及以下四部分:首先是设定治理规则,包括表治理规则、行过滤规则、数据项治理规则和数据项治理明细设定;其次是行数据治理,包括源行数据过滤、行数据载入、行数据关联载入;第三,单项数据治理,包括单项源数据载入、数据标准化、数据映射、数据格式化处理、清洗函数处理、数据关联性处理;第四,结构化处理,包括数据归一、数据分类、数据联动、数据追溯。在实践中过程中,规则如果修改了,只能启用新规则,停用上一次的规则。是否全部重新治理也是人为判断。

  总体而言,影响数据治理建设的因素主要有以下三大方面:对新技术的把控能力;对数据库的深度应用;对业务数据的熟悉程度。