13.广州医科大学附属第二医院:构建大数据科研平台实现“一站式”工作模式【CHIMA 2019案例分享】

发布时间:2019-06-13
浏览次数:

案例提供:广州医科大学附属第二医院



案例概要


广州医科大学附属第二医院(简称广医二院),是一所集医、教、研于一体的大型三甲综合医院,也是广州市重要的医疗诊治、医学教育及医学研究机构。尤其在科研方面,过去十年,在神经内科、心血管疾病、外科学、急诊医学都多个领域都取得了重大突破,建立了数个重点学科及重点实验室,并获得各级课题立项超600余项,为医院的综合实力提升做出了巨大贡献。


但与此同时,传统科研模式中存在的数据获取难、统计分析难、论文总结难等弊端,也一直困扰着临床医生,成为阻碍科研工作进一步发展的最大壁垒。亟需找到一种方法,来缓解日益增长的科研需求与数据挖掘利用困难之间的矛盾,简化科研流程、提高科研效率,加速成果转化。


在此背景下,我院基于原有数据中心,建立了大数据科研分析平台。该平台是以智能医学数据中台为基础,通过数据采集、治理,以及自然语言分词、机器学习、知识图谱等大数据处理和建模技术,整合并挖掘院内电子病历、检验检查、医疗影像、基因序列以及院外随访、课题数据库等在内的海量医疗数据,构建以疾病为中心、具有完整时间序列的高质量专病数据库;并利用机器学习算法及统计分析模型等,实现对数据的深度解析与可视化,形成覆盖从科研构思到数据统计分析的全流程“一站式”工作模式。此外,还可以通过大数据分析提取出疾病重点特征,训练智能预测引擎,实现对疾病危险因素的预测等,促使科研成果有效转化临床,提升医疗服务质量。


智能医学数据中台架构如下图所示:



解决的主要问题


1.辅助科研构思


传统模式下,科研人员在面对杂乱无章的海量数据时,往往很难在第一时间发现数据潜在的关联关系,提出有效的科研假设;同时,也无法在实验开始前验证研究思路的可行性,存在后期因数据质量等问题导致实验失败的风险。基于此,大数据科研分析平台通过文献复习、数据回顾和可行性研究三种路径,在实验设计阶段即帮助科研人员很好地解决了上述问题。


(1)文献复习:通过平台知识库,可以让医生方便地查找相关文献,了解研究现状及最新发展;


(2)数据回顾:通过对全院或各科室门急诊人次、住院人次、时间分布等情况的回顾统计,或对患者分布、疾病分布等进行多维特征分析,可以快速找出其中隐含的知识或规律,帮助创新科研思路;


(3)可行性研究:在统计学处理模块,系统可对所选变量的数据完整度进行预览,若数据缺失程度过高,则认为该统计结果不成立,需要重新调整或改变研究思路,提高实验成功几率。

 

2.辅助数据获取


以往科研数据绝大部分都是基于CRF表格,通过临床科室与信息科、档案室、统计室等协调后传递给医生,数据还有可能不合要求,费时费力且效果不佳。大数据科研分析平台通过集成院内外全量疾病相关数据,可实现多种形式、不同维度的数据实时检索,查询结果秒级返回,召回率可达90%以上,大大提高了数据获取的效率及准确性。

 

3.辅助数据处理


由于病历中存在着大量自由文本数据,无法直接用于科研,依靠人工转录不仅耗时耗力且极容易出错。利用大数据科研分析平台的自然语言处理、数据归一等技术,则可轻松实现对数据的后结构化处理,以及标准化、清洗、量化等,形成计算机可识别、可利用的有效信息。

 

4.辅助统计分析


统计分析是科研活动中的环节关键之一,也是制约科研产出的主要壁垒。以往医生通常需要手工采集、导出数据,处理后再导入SPSS/SAS进行统计学分析,过程繁琐且容易出现错误。大数据科研分析平台通过集成R算法,可根据课题研究目的及分组情况自动选择合适的统计模型,包括比较均值分析、非参检验、回归分析、相关性分析等,有效提升了科研效率及质量。

 

5.辅助数据质控


临床科研对数据质量有着极高的要求,但实际中的数据却存在很多问题,如:数据表示不统一,数据不一致、不完整,错误数据等,严重影响着其在疾控、临床、疾病预测等方面的适用性。大数据科研分析平台可提供对科研全变量的实时数据质控,包括数据缺失、异常值等,为医生选择科研统计指标提供参照,避免到研究终末阶段因数据质量不合格导致数据重复采集和研究周期拉长等问题。同时,还可将问题溯源至原始病历,促进病历书写质量的改进,从而提升科研数据采集质量。


数据内容


我院利用大数据临床科研平台,将院内数据(医院数据中心HDR)与课题数据库集成后,经过整合、清洗、标记、解析、对齐等数据处理和自然语言分词后,输入到数据中台,可方便医生通过科研平台直接进行研究人群的筛选、确定、关联分析,以及对数据质量的核对、统计建模分析等。

 

截至目前,我院大数据科研平台已累积经过规范化处理的住院患者232,813人次,门诊患者9,253,814人次,覆盖包括病历文书、医嘱、检验检查报告、课题随访数据等在内的37种文档类型,总量达36,688,402份。平台开放变量4000余维,其中经过自然语言处理之后的变量可占80%。

 

平台目前已开通医生使用账号336个,辅助医生搭建完成专病库200多个,研究课题10余项,累计登录次数达2500余次。与传统人工操作相比,无论数据质量、科研效率及还是成果产出,均有明显提升。



关键技术


1.多层次医疗术语抽取技术


基于对病历数据的深入理解,设计了一种基于多层次医疗术语抽取技术的医学自然语言处理方法,以实现对病历自由文本的语义分词。语义分词与传统标签分词的区别主要体现在病历数据本身复杂的分级结构上,传统标签分词是实体抽取,词性标注,缺乏上下文语义性关联,语义分词则能达到串联病历复杂分级结构的效果。如:10年前,患者的症状是什么?症状的持续时间多长?恢复方式是什么?近期又是什么临床表现?



2.数据归一


“数据归一”是保证数据检索快速、精准的必不可少的核心工作,包含诊断、实验室检查、手术名称、药物名称等专用名词的归一。由于病历会持续产生新的非标准词汇,需要一个增量模式去扩展词库。平台以标准词汇库为中心,对病历中出现的非标准医疗词汇,通过机器学习技术和人工标注相结合,将意义相同的医疗词汇进行归一处理,持续扩大词库,满足动态变化需求。



3.医疗知识图谱构建与应用


医疗知识图谱,是在医疗命名、实体及其属性信息抽取的基础上,构建出的不同命名实体之间的关联模型。平台针对医疗数据跨语种、专业性强、结构复杂等特点,利用马尔可夫随机场、贝叶斯网络等概率图模型方法,从大量结构化、非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素,以合理高效的方式存入知识库;并对知识库内容进行消歧和链接处理,大大增强了其内部逻辑性与表达能力。通过知识图谱,可以完成知识推理,辅助疾病诊断、治疗等。



4.统计分析R语言的无缝接入


R是一套完整的数据处理、计算和制图的开源软件系统,功能包括:数据存储和处理;数组运算;完整连贯的统计分析工具;优秀的统计制图功能;简便强大的编程语言。鉴于其开源性和在统计分析方面的强大优势,大数据科研分析平台无缝接入R语言,实现多种医学常用统计分析方法及决策树和主成分分析等数据挖掘算法,保证科研过程流畅性的同时,也提高了研究过程数据阶段分析的可行性,降低了临床研究人员使用统计工具的门槛。


成果成效


1.“一站式”科研工作模式


(1)研究对象筛选:支持多种筛选模式灵活组合,可自助筛选研究对象,并根据入排条件动态更新研究对象数量;



(2)确定课题信息并建立研究分组:完成对象筛选后,需进一步确定研究基本信息,如目的、类型、起止时间等;之后根据课题需要,可灵活创建多个研究组别或亚组;



(3)统计分析及结果解读:平台通过嵌入R语言,实现了对数据的实时在线统计分析,目前已涵盖包括独立样本T检验、卡方检验等在内的30余种常用统计算法;同时也支持对统计结果的解读,使医生能够更好地选择统计算法及统计结果。



2.数据导出服务


平台可提供基于多维变量的数据导出,并可实现检验指标相对时间计算和导出值域自动量化等。



3.个案视图


平台通过整合患者在院期间的各类门急诊、住院就诊记录,可通过时间轴进行统一展示,方便医生全面了解患者情况。



4.专病库建立


此外,平台还支持对已有数据库的导入,对其数据进行处理分析,从而辅助建立高质量专病库。目前,我院已建成9个单病种专病库,包括:脑梗塞、乳腺肿瘤、冠心病、过敏性鼻炎、脓毒症、下肢深静脉血栓、椎间盘突出、带状疱疹后神经痛、癫痫。

 

5.文献检索


平台可提供对1400多万种中外文献的摘要检索服务,方便医生随时查阅。



6.权限管理


平台提供灵活的权限管理机制。可通过不同层级的权限设置,确保对患者数据应用安全的最大保障。



下一步计划


1.构建智能预测引擎


智能预测引擎,是利用影响因素分析、主成分分析、决策树等多种数据挖掘算法,从专病库中提取出重点疾病特征,并通过相关真实病历的机器学习和模型训练,得出疾病精准预测规则,纳入到知识库中。这样,在临床遇到相似病例时,即可触发该规则,实现对患者相关疾病危险因素的预测分析、疾病严重程度分级、治疗效果评估等,从而提高和改善临床诊疗质量。


 


目前,我院已积攒包含30余种疾病类型、12大分析主题的近百个模型知识库,用来对疾病的再手术、再入院、并发症以及生存期等进行预测分析,并可针对疾病不同干预方式进行疗效评价。未来,将逐步探索将模型知识应用于实际临床业务,用以进行疾病危险程度评估和手术预警等,使科研成果能够更好地服务临床,扩大临床效益。



2.多中心协作网络建设


此外,我院大数据科研分析平台目前主要还是支持本院的单中心研究。未来,发展协作网络、开展多中心研究将是优化临床实践和学科探索的必然趋势。因此,将利用该平台大力发展涉及大样本、多中心的实验,以智能化科研工作模式支持医生搭建协同研究网络,快速积累病例、缩短研究周期,开展大规模回顾性或前瞻性研究,以提高研究水平,获取高质量研究成果。