《数据二十条》的号角声

发布时间:2023-02-09
浏览次数:

  国务院于2022年12月19日发布了《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(后简称《数据二十条》),如何有效利用数据已经成为下一步的趋势。另一方面,无论是基于数据中台还是数据编织理念,两者也都对如何利用数据提出了构想。因此医疗行业数字化建设的目标已不能再局限于如何收集数据,建立医疗行业数据的流通机制将会是越来越普遍的需求。

  时钟拨回几年前,数据中台概念开始火爆。人们对数据中台的定义、诠释尽管有诸多差异,通过数据中台降低数据共享和利用的成本则是共同的期望。但经过这几年的探索之后,中台已死的观点也在涌现。究其原因,除去中台概念在技术上的不确定,数据流通过程中的责权益的不清晰也是严重的制约因素。毕竟,数据中台自身作为一套技术框架并不能代替法律法规与市场,自动将数据转变为商品从而创造出流通价值。

  那么,如何能够使数据的流通合规合法,使数据能够如货币和商品一般自由流动,则是我们需要思考和探索的主题,这次《数据二十条》的出现,无疑为医疗信息技术工作者提供了一个明确的思考方向。

政策利好与约束

  鉴于《数据二十条》对数据行业生态的覆盖范围之广,涉及数据权属界定、数据产品流通、数据收益分配和数据市场有效监管等各方面,本文将无法全面展开每一条政策进行解读和思考,因此将聚焦于与每个从业人员都息息相关的数据产权和数据产品流通两方面进行。

  产权与所有权的破与立

  还记得数年前与信息科同事谈及基于医疗数据的统计与分析时,医院的同事对于数据被第三方访问的恐惧远多于期待。对数据要素的权属及其确立规则的不清晰使得每个从业人员都无法在具备法律法规保障的前提下运用数据。本次《数据二十条》对于个人数据、企业数据和公共数据进行了产权定义,还提出了数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制,从而打破了无法可依的尴尬局面。

  可以预见的是,通过对数据的产权与使用权进行分离,在取得数据所有者(如个人或企业)授权的前提下,对数据进行加工处理,通过数据洞察进行盈利将成为合理合法的业务形态。

  数据供应链的建立

  《数据二十条》第三章对数据供应链体系做了一系列的规划,包括数据流通过程中参与方的角色,如数据商和第三方专业服务机构;包括流通场所,如数据交易所以及对应的流程合规与监管规则体系的远景。这样一个体系的构建,其规模和复杂性并不亚于为汽车工业组织零部件生产和消费的供应链。

  特别需要注意的是,正如《数据二十条》中明确指出的,数据供应链的建立必将依托数据质量标准化体系,推进对数据采集和接口的标准化,依赖于数据整合互通和互操作。

  这些概念和体系对于医疗信息技术工作者来说并不陌生。然而在既往的工作中,跨企业、跨区域医疗行业数据共享的产业规模并未对标准化产生强劲的推力。尽管近年来随着互联互通标准化评测工作的开展,医疗信息互操作在标准化方面得到了极大的进展,但是医疗行业数据与上下游生态企业(如药企、保险、养老机构等)间进行数据流通所需的统一语义和标准还未确立和应用,势必将在不远的未来对医疗信息技术工作者提出更高的挑战。

  另一方面,在鼓励数据交易所发挥作用的同时,《数据二十条》也倡导在数据流程合规与受规则体系监管的前提下,培育一批数据商和第三方专业服务机构,依法依规在场内和场外采取开放、共享、交换、交易等方式流通数据,也为创建数据供应、数据托管和数据服务代理等多种模式的数据经济形态创造了条件。

医疗行业数据流通案例

  医疗数据产业并不是一个已经成熟的规模化产业,即使对于美国、英国这些在医疗信息化方面较早起步的国家,医疗数据产品和流通也仍然处于初步的市场探索阶段。我们可以看到一个案例。

  Epic COSMOS数据集

  美国最大的电子病历厂商Epic于2019年推出了数据集产品COSMOS(https://COSMOS.epic.com/)。所有Epic电子病历系统的用户都可以自愿与Epic签约成为COSMOS合作伙伴,在开放自己的医疗健康数据的同时共享同样加入了COSMOS网络其他用户的数据。时至今日,COSMOS已经收录了1亿6千7百万患者的数据,覆盖一千余家医院和两万余家诊所。

微信图片_20230209132224.jpg

图 1 COSMOS数据流

  如上图所示,Epic采用了非常传统的“前置机+中心化存储方案”构建。在置于院端的前置机中,以批量、定期上传的方式加载数据集,在前置机一侧对数据进行标准化和匿名化,并通过HL7 CDA标准以文档的形式将数据传到数据中心。置于AWS云端的数据中心负责对数据进行去重及合并。其中,数据在云端将以"非结构化"的Global形态存储于InterSystems Caché中,并利用Caché自带的后结构化能力将非文档化的Global转换并存储为关系型数据对外提供SQL访问能力。

  在这个过程中,COSMOS进行的若干细节处理非常值得即将面临数据开放的医疗信息技术工作者参考和借鉴。读者可参考相关论文查阅(如https://www.thieme-connect.com/products/ejournals/pdf/10.1055/s-0041-1731004.pdf)。

  1.真实数据的可访问性:COSMOS本质上只解决了分散的,真实的医疗数据的可访问性问题,还没有运用任何颠覆性的BI、AI技术。作为美国最大的电子病历厂商,手握上亿人的医疗数据的Epic,需要从基础数据的准备切入市场,这从侧面反映了当前医疗行业所面临的客观现实,即供应链底层的数据原料并不存在稳定的供给,从而阻碍了其他技术的演进。这同样是我们面临的现状。

  2.非常传统的数据采集:COSMOS只采集EHR中的结构化数据,并不收纳任何影像、视频和除实验室检测结果外的文本等多媒体数据,也未采用实时数据流进行采集。这并不意味着多媒体数据没有价值,也不意味着实时数据流没有价值,而是意味着半静态的,结构化的数据中的价值并没有得以充分提炼和发挥,仅通过收集整理结构化数据形成规模一项工作已足以支撑起庞大的价值链条,尽管这些静态数据并不是唯一的价值来源。

  3.去识别化与个人数据授权:作为对患者信息进行隐私保护的首要手段,COSMOS及与之相似的数据集产品Cerner Real-World Data(CRWD)均遵循美国自1996年通过的HIPPA法案,只开放法案允许开放的数据集,并按照HIPPA的要求对可能暴露患者隐私或反向识别个人的数据字段进行匿名化处理。需要注意的是,尽管CRWD相关的论文中声明,由于对数据进行了匿名化处理,对个人医疗数据的使用不需要患者本人的授权(https://www.sciencedirect.com/science/article/pii/S2352340922003304),但COSMOS仍然提供了供患者撤回数据授权,将本人的数据从COSMOS网络中退出的工作流。因此,即使在美国,数据所有者和数据使用者之间的权益平衡仍保留了相当的灵活性,我国在制定相关法规时也会对基于所有权和使用权定义相应的细则。

  4.数据访问控制:在前置机与云端数据中心通信过程中,CDA文档将被加密并通过专网传输,避免在公网传输并被截获和解析的可能。另一方面,尽管COSMOS收集了诊断、药嘱、手术史、社会史和家族史等患者个人的明细数据,但它并不对最终用户开放这些数据;COSMOS用户可以通过查询门户,制定条件,查询基于这些明细的统计数据,例如在一定行政区域内罹患新冠的患者数量及其年龄分布等,但无法查询到对应的个人,因此经过认证的科研机构在COSMOS中发起查询并不再需要特定的审查委员会审核;同时COSMOS也不提供将数据从COSMOS网络中导出的渠道,避免数据流出网络。从这些控制手段上来看,COSMOS选择的技术路线和服务模式与《新二十条》中“原始数据不出域、数据可用不可见”的要求和“以模型、核验等产品和服务等形式向社会提供”的倡导高度吻合,值得借鉴。

  5.数据标准化:COSMOS在前置机上收集一家医院的数据时已落实了数据的标准化,采用固定的数据结构和术语集。医院需要先完成对数据和术语的标准化映射,才能接入COSMOS网络。而在云端存储中,原始数据也是以标准化的CDA文档形式保存,进一步巩固了数据标准。也正是在标准化数据存储的基础上,最终用户才能够通过统一的查询构建器,在同一种语义环境下同时访问来自于不同医院,采用了不同术语标准的医疗数据。因此通过数据标准术语标准达成语义一致性的重要性不言而喻,这是医疗数据的利用迅速得到规模效应的客观需求。

医疗数据产品发展前景

  如前所述,基于数据所有权与数据使用权分离的假设,很难想象未来医疗数据产品的发展方向以生数据(raw data)产品的形态,开放对个人数据的(即使经过了匿名化)访问。相反的,基于医疗数据需求的多样性以及个人、企业、公共数据管理规则的差异性,以生数据为基础,以对药企、保险等企业提供潜在可招募患者的区域锁定或针对患者的年龄、诊断、家族史的普遍特征与医疗支出进行精算为例,针对人群展开的数据洞察和数据分析服务,更可能得到业界的认可并在数据价值利用和数据隐私保护间取得平衡,有很大概率成为率先得以实现的商业模式。同时,作为一个新兴产业,生产者(数据工程师)群体的培养和储备,以及与之配套的生产资料的制造和积累,则是医疗数据产业能够成型的前提,值得医疗信息技术工作者关注。

  因此,在未来相当长的一段时间内,对医疗行业数据的利用,将以各医院、集团和企业建立的数据中心为基础,通过对真实数据进行洞察分析和价值挖掘的形态,以数据服务的形式对外提供,从而迅速释放这些被积累了很久的数据的价值。

  后续我们还会继续阐述和分析在医疗数据流通领域中的生产者和生产资料的特征,欢迎大家与我们交流,谢谢。

  InterSystems开发者社区汇集了大量有用、有趣的实践探讨。我们今天推荐的是InterSystems中国资深售前工程师祝麟的一篇文章。

  您也可以点击“阅读原文”,加入InterSystems开发者社区(中文版)查看全文。

  (本文由InterSystems公司供稿)