薛万国:医院大数据中心建设的技术路径
随着大数据在医疗行业临床诊疗、医院管理、健康管理等领域应用热度增加,越来越多医院设立了大数据中心或者在信息中心基础上开展了大数据的建设。在4月20日举办的北京卫生信息技术协会(PHITA)上,解放军总医院医疗大数据中心主任、CHIMA副主任委员薛万国详细剖析了医院大数据中心的技术路径。他指出,医院在建大数据中心或平台时,首先要做好定位。
大数据中心三个定位:管理、处理和分析
薛万国认为,大数据中心有三种定位:
第一, 数据资源管理,即把大数据整合管理起来提供数据资源服务,科室需要的数据经过审批和授权后,由大数据中心提供,这是基本职能;
第二个,数据的处理和加工服务,根据临床问题研究需要对原始数据进行处理,从中抽取一些特征,然后提供给临床。
第三个,数据的分析服务,即按照科室的需求做数据的分析,比如病例分布、基于数据建立模型进行疾病和不良事件预测等。
薛万国指出,大数据中心的定位不同,其职责也不同。如果大数据中心定位
大数据管理职能,有三个职责:第一,整合各个业务系统数据;第二,形成长期的管理机制,即对历史的、现在的数据资源进行一体化的管理;第三,根据临床访问需求,进行访问授权。这一定位的工作平台为数据整合平台(ETL)、数据检索系统、数据浏览系统和数据在线使用(虚拟桌面),所需人才为IT工程师。
如果大数据中心定位为加工中心,其职责主要是根据用户需求,从原始数据加工生成特征数据。这一定位的工作平台包含以下几方面:第一,增加自然
语言处理工具;第二,建立专病数据库的平台,帮助一线的医护人员或科研人员整理数据;第三,建立组学数据等专业化技术平台支撑特定数据的处理。该定位所需人才还是IT工程师 。
如果大数据中心定位为分析服务中心,其职责是为用户提供数据分析服务,所需平台除了数据检索、加工分析外,还包括以下几个方面:第一,各种类型的建模工具;第二,可视化平台,通过图表把数据分析结果更直观的展示出来;第三,需建立大数据深度学习平台。这时所需人才除了传统的IT工程师,还需要专门的数据分析工程师。
薛万国总结道,“大数据中心”有不同的内涵,不同的职能定位对应不同的技术平台与人才团队建设内容。在提出建设大数据中心规划时,首先要明确大数据中心的职能定位。
整体预处理带来信息缺失,建议采用“数据湖”
数据是否要做整体预处理一直是业界探讨的话题。对此,薛万国并不建议开展整体预处理。他指出,大数据中心数据处理有两种流程:整体预处理和应用时预处理。通常情况下,整体预处理会带来信息的损失,比如:病历文本结构化的结果不能完整表达原病历文本的语义;标准化(归一化)可能导致特定信息丢失。同时,数据整体进行预处理在技术上也存在较大困难,包括历史数据不一致、整体结构化困难等。
因此,他建议采用应用时预处理的方式,即采用“数据湖”概念,保留数据的原始性,针对特定研究问题开展数据预处理是更好的选择。
依托原始数据开展研究
薛万国强调,临床数据研究有两种路径:专病数据库路径和按需从原始数据特征提取路径。
针对建立科研病种数据库是否是临床数据研究的必然选择这个话题,他指出,科研数据库有其局限性,表现为:单一研究目的的科研病种数据库是以特定问题为导向收集病种数据;而泛研究目的的数据库涉及数据项多,结构复杂,人工加工工作量巨大,持续难度大,针对问题分析时需要二次加工。“因此,在现实研究实践中,特别是在回顾性研究中,更多地采用直接依托原始数据的方式。”他谈到。
薛万国在演讲时提到,医疗大数据平台既面向一线临床研究人员的需求,也面向数据处理分析人员的需求,数据在数据检索、数据处理、数据分析和专病系统中的适宜形态也各不相同。“它是一个多种技术形态并存、多样化功能协作的异构系统,因此数据管理技术选择要考虑生态,避免生搬硬套。”他总结道。
上一篇: 医院信息部门负责人必须亲自做的大事
下一篇: 岳阳:“互联网+医疗”带您走进智慧妇幼