易应萍:源于医疗大数据的科研思路

作者:CHIMA 2021 发布时间:2021-09-07
浏览次数:

当前,医疗大数据在临床研究、人工智能、精细化管理等获得了越来越广泛的应用,为临床决策和医院管理提供了强有力的数据支撑。在CHIMA 2021大会上,江西省医疗大数据工程技术研究中心主任及南昌大学第二附属医院(以下简称“南昌大学二附院”)大数据中心常务副主任易应萍详细阐述了医疗大数据在科研的应用。


江西省医疗大数据工程技术研究中心主任及南昌大学第二附属医院大数据中心常务副主任 易应萍


以下内容根据易应萍主任演讲整理。


大数据是指所涉及的数据量规模大到超出传统数据管理工具的处理能力,无法在合理时间内进行撷取、管理、分析的复杂、大规模数据集合,具有超量、种类繁多、高速、真实性、有价值等五V特征。医疗大数据,即临床医疗中所产生的海量数据,主要来源于电子病历、医嘱、检查、检验等,符合大数据的五V特征。


医疗大数据和人工智能是密不可分的。人工智能医疗产业是人工智能技术应用的一个细分领域,其产业链包括网络、算法、硬件铺设和数据获取的基础层,模拟人工智能相关特征构建路径的技术层,以及集成人工智能技术面向特定场景的应用层。




医疗大数据研究方向



科研是一种思维方式及解决问题的能力。目前,南昌大学二附院医疗大数据研究方向主要包括队列研究、人工智能、智慧管理。


1.队列研究。一般是前瞻性和回顾性研究,是将某一特定人群按是否暴露于某可疑因素或暴露程度分为不同的亚组,追踪观察两组或多组成员结局发生的情况,比较各组之间结局发生率的差异,从而判定这些因素与该结局之间有无因果关联及关联程度的一种观察性研究方法,主要涉及临床疗效、疾病诊断、病因/风险因素研究、疾病预防等临床问题。平台上线2年来,南昌大学二附院科研工作者已在平台上建立临床队列研究1086个,科研项目600余项。


2.人工智能。主要用于影像辅助诊断、疾病风险预测等。在临床的应用分为应用研究和技术研究两个方向。应用研究包括基于XGboost的首次脑梗后再入院预测模型研究、基于BPNN的脑卒中后肺部感染预测模型研究、基于大数据的临床路径挖掘模型和基于CYP2C19基因和尿11-dhTxB2检测技术的精准用药平台。技术研究主要是基于江西医疗大数据平台的脑卒中电子病历自然语言抽取模型和实体库建设、基于随机森林的医疗缺失值填补研究。


3.智慧管理。主要是医疗质量、运营、绩效、风险管理。包括基于医疗大数据挖掘的临床路径构建方法研究、基于大数据的医疗投诉风险分析及预测和医院精益管理。




研究基础和条件



南昌大学二附院于2017年完成大数据平台建设,平台采用基于X86架构的分布式计算集群,具有286个CPU核心、2T内存、808T存储的计算资源。基于该融合集群建立了临床数据中心、影像数据中心、基因数据中心,并从临床系统、医疗仪器实时接入、处理各类数据,为医院科研、临床、运营提供了强大的数据支撑。在数据治理方面,医院进行了主索引合并、结构化、标准化和质量控制,目前的治理成果是完成了医院78个业务系统,总计过往医院15年15.3亿条数据的治理,形成清洗后、结构化、标准化数据11.1亿条。


研究团队成员的专业涉及计算机学、临床医学、生物信息学、统计学、数学等学科,实现了合作交叉。医院的大数据研究团队是以研究项目为基础建立的,比如《脑血管病抗血小板治疗智能化决策体系建立》这一研究是国家重大慢性非传染性疾病防控研究专项,为前瞻性、大样本注册研究和随访研究。大数据中心与神经内科合作,共同完成了该课题。




研究策略与方法



南昌大学二附院大数据研究主要采取的是统计学方法和机器学习方法。统计学方法主要包括Logistic回归、Cox回归和线性回归三方面。机器学习方法主要有单一机器学习方法、深度机器学习方法和集成机器学习方法。


创新是科研的灵魂。创新思路主要体现为以下方面:大数据平台的构架、数据汇聚方法、质量控制、算力的提高等方面;数据治理技术、方法,主要为标准、非结构化(自然语言)处理技术、数据缺失值的处理方法等;Lasso回归、Ridge回归、RFE等特征选择;PCA、LDA等特征降维;逻辑回归、决策树、集成算法(RandomForest、Adboost、Xgboost、LightGBM等)、神经网络(BP、CNN、RNN、LSTM)、迁移学习等算法应用;模型的临床应用。


项目创新主要包括原始创新、集成创新、引进消化吸收再创新:原始创新是指“元创新”(meta-innovation),即是一种观念上的根本性创新;集成创新是在算法模型构建时,在不同的阶段采用不同的算法以解决不同的问题,如采用CNN与NLP技术对原始数据进行结构化处理,并采用LightGBM进行模型构建;引进消化吸收创新是指引进已经存在的知识对不同但是相关领域的问题的求解以及进一步修正的创新,迁移学习是一种将已经训练好的算法模型迁移至拟解决的问题上加以学习和优化。




大数据及人工智能研究面临挑战



目前,医疗大数据及人工智能研究主要面临以下挑战:


1.数据质量不高。因为数据缺失情况导致数据完整性不够高,数据质控流程不完善、影像报告判读带有主观性等原因导致数据不够准确。


2.数据开放共享程度低。由于医疗数据归属权不明晰,使用利益分配问题、使用过程中个人隐私保护、86%机构担心数据流通过程中存在数据泄漏风险等问题,制约了医院数据开放共享。医院没有动力开放电子病历、影像库及病理库等相关医疗数据,一定程度上造成医院内部数据以“信息孤岛”的形式存在。数据的共享模式可分为合作共享、开放共享和交易共享:合作共享是以完成某项研究为目标实现数据共享;开放共享是将机构数据变成公共资源实现数据共享;交易共享是指数据脱敏后保证数据安全的基础上可以交易。


3.数据使用的伦理性。主要体现为以下几个方面:临床诊疗过程中患者数据采集是否需要患者签署数据采集知情同意书?研究型医疗机构通过哪种方式合法采集患者数据用于未来研究?临床研究征得知情同意的例外主要有以下两种情况:对于产品上市后研究,以验证产品安全性和有效性为目的,在数据去标识化的前提下,相关申办者不需要获得受试者知情同意;申办者出于公共利益开展统计或学术研究所必要且其对外提供学术研究或描述的结果时,对结果中所包含的个人信息进行去标识化处理的,不需要获得受试者知情同意。


以下情况可以向伦理委员会申请知情同意豁免:受试者可能遭受的风险不超过最低限度;豁免征得受试者的知情同意并不会对受试者的权益产生负面影响;对于回顾性研究,已无法追溯到患者,或获取受试者知情同意代价太高,在数据去标识化的前提下,可以申请知情同意豁免;对于回顾性研究,主体已签署知情同意书,范围包含现有范围,在数据去标识化的前提下,可以申请知情同意豁免。


(本文由CHIMA秘书处杨永燕整理)