25.东华医为:助力医院构建“AI+大数据”疾病风险预测模型【CHIMA 2019案例分享】
案例提供:东华医为
案例概要
在国家“十三五”规划之际,国家先后发布《关于促进和规范健康医疗大数据应用发展的指导意见》和《“健康中国2030”规划纲要》等重要性指导纲要,其中指出大力推动健康医疗信息系统和公众健康医疗数据互联融合、开放共享,消除信息孤岛,并推进健康医疗行业治理、健康医疗临床和科研大数据应用,系统加强临床和科研数据资源整合共享,提升医学科研及应用效能,推动智慧医疗发展。
为落实《关于促进和规范健康医疗大数据应用发展的指导意见》,推进健康医疗临床和科研大数据应用,激发创业创新活力,建设健康中国。以搭建疾病预测模型构建策略为目的,探究海量异构的HIS数据中隐性知识到显性知识的发现途径,东华医为搭建了基于大数据与人工智能的疾病风险预测模型。充分利用人工智能+医疗的技术,将医疗健康与人工智能的创新成果深度融合,实现了个性化、精准化、智能化的“AI+大数据”疾病风险预测模型。2019年1月,东华医为利用大数据应用技术协助北京协和医院神经外科专家构建了库欣病术后复发风险的预测模型,以此模型为基础的文章在SCI来源期刊Neuroendocrinology杂志上发表见刊。
东华医为(全称东华医为科技有限公司)成立于2012年5月,注册资金5000万,是东华软件股份公司旗下专业服务医疗、卫生等大健康领域IT业务的全资子公司。东华医为现有员工2400余人,其中技术人员占比达到90%,拥有近100项大健康类自主知识产权的软件产品,所覆盖的大健康领域有医疗机构、卫生管理机构、互联网医疗、人工智能、大数据、健康管理等,所涉及的主要业务有IT咨询规划、方案设计、系统集成、软件开发与交付、工程实施与交付、人才培养、售后运维、合作运营等。东华医为现为全国500余家大健康领域的各类用户提供着持续的技术服务,还连续多年蝉联中国十佳医疗行业解决方案商榜首。
解决问题
本案例充分发挥东华医为优势,面向健康医疗临床和科研大数据应用,提升医学科研及应用效能,推动智慧医疗发展,形成了“AI+大数据”疾病风险预测模型,并旨在解决以下两个核心问题:
1.完善“AI+医疗大数据”支撑体系,形成个性化的疾病风险预测模型。在医学研究领域中,“预测模型”常被用来预测某种疾病未来的发病情况。具体来说就是以疾病的多病因为基础,建立预测模型,用来预测具有某些特征的人群未来某种结局事件发生的概率。目前多数临床决策支持应用研究包括疾病诊断、危险因素或复发与否等预测。构建“AI+大数据”疾病风险预测模型辅助临床决策,不仅仅是建立预测模型或评判预测方法,而是在于如何提高医生工作质量,例如缩短诊疗时间、避免过度医疗、减少医疗差错等。
2.建立“AI+个体化治疗”服务体系,提供线上线下一体化的优质医疗服务体验。临床医生在临床实践中应用疾病风险预测模型,可以快速准确地确定高危患者,进行有针对性的治疗。还可以加强医患之间的沟通和交流,使患者能够更加明白和信任医生采用的治疗方案。此外,通过模型还可以寻找到能预测疾病发生相关危险因素,为发病机制研究提供线索并指导临床诊断和筛查。而对人群进行高危筛查,可以更好地实施高危人群策略,开展三级预防。通过高危人群的筛查,使有限的卫生资源得以合理化应用,降低疾病的发病率和死亡率。
数据内容
数据来源于科研大数据中心,内容包括专病数据在院HIS数据及随访数据(脱敏后),包括医院信息系统(hospital information system,HIS)数据、临床信息系统(clinical information system,CIS)数据、实验室信息系统(laboratory information system,LIS)数据、放射信息管理系统(radioiogy information system,RIS)数据、影像归档和通信系统(picture archiving and communication system,PACS)数据和病案系统数据等。
关键技术
1.基于科研大数据中心的数据探索系统
实现一个包含院级科研数据中心的数据探索系统,简化临床科研工作中病历查询、筛选等核心环节,同时具备研究项目管理、数据导出和数据分析等功能,以满足科研用户快速查询提取院内数据、在线分析的临床科研需求。
2.构建数据集市
根据临床科研标准化、结构化的需要,在标准数据层的基础上,对数据分类细化处理,形成应用数据集市。通过聚合/统计计算,补充就诊次数、住院次数、手术次数,就诊年龄等计算指标,为后续搜索和数据分析提供基础数据支持。将医院医疗业务系统中的长文本数据,通过自然语义处理技术,结合医疗专业术语的语义结构,将医疗语义信息从原始的自然语言表达,扩展分析为结构化的Key-Value模式,为后续的应用、挖掘、机器学习提供基础数据支持。
3.大数据引擎技术
通过基于Lucene的搜索服务器Elasticsearch,提供了一个分布式多用户能力的检索引擎。通过构建倒排索引+分布式检索实现快速检索的功能。倒排索引:非结构化数据中所存储的信息是每个文件包含哪些字符串,也即已知文件,欲求字符串相对容易,也即是从文件到字符串的映射。分布式检索:Elasticsearch的查询执行过程通常要分成两个阶段,分散阶段及合并阶段。分散阶段是向所查询的索引中的所有节点发起执行查询的过程,合并阶段是将各节点返回的结果合并、排序并响应给客户端的过程。
4.AI建模技术
人工智能通过场景、算法、平台和医疗大数据疾病风险预测这一场景,可以让技术与场景结合,加速技术落地产生价值;在算法上,通过三维识别、去躁降维提供结构化的数据分析;通过强大算力,建立数据中心,最终使得人工智能技术与疾病风险预测场景相辅相成。结合人工智能技术对于数据进行整合与挖掘、并进行数据共享机制的探讨,使其具备可应用的价值和向纵深发展的潜能。
成果成效
以北京协和医院神经外科库欣病术后复发风险预测模型为例。
东华医为利用大数据应用技术协助北京协和医院神经外科专家构建了库欣病术后复发风险的预测模型,以此模型为基础的文章《Prediction of recurrence after transsphenoidal surgery for Cushing’s disease: the use of machine learning algorithms》(IF=5)在SCI来源期刊Neuroendocrinology杂志上发表见刊。
东华医为于2012年开始与北京协和医院神经外科合作,共同搭建多中心数据科研平台,通过多中心科研平台收集、整合并清洗分散在北京协和医院及其合作医疗机构的HIS、电子病历、检查、检验、病理及手麻等多个信息系统内的数据,同时收集医生手动整理的多源异构数据。截至2018年共收集整理垂体瘤患者病例近2万例。
通过病例分析研究,选定库欣病的术后复发预测作为研究突破方向,东华医为提供技术支持,协和专家提供疾病专业知识,双方合作完成了库欣病术后复发风险预测模型的构建,并利用人工智能技术在2个月内完成数据清洗挖掘工作,建立模型测算。该模型AUROC达到0.70以上,并发现了与库欣病相关的18个有价值的风险因素和保护性因素。该模型可在临床诊疗过程中,辅助医生预测库欣病手术患者术后复发情况、指导患者进行有针对性的预防、降低术后复发风险,从而改善患者的生活质量。
下一步计划
在国家发展健康大数据的政策支持下,随着大数据技术的发展,医疗大数据的挖掘和分析工作不断深入,大数据对临床和科研的助力开始显现。
东华医为一直以来持续投入大量人力、财力开展新技术的应用和新产品的研发工作,针对医疗机构的医疗大数据应用需求,东华医为推出了医疗大数据分析系统。该系统集临床数据采集、存储、分析和统计功能于一体,可进行全面的数据整合和高效的数据治理,协助医生充分挖掘临床数据的潜在价值,高效产出科研成果、提升医疗服务质量。
在未来,东华医为将通过“健康链”平台协助医院完成从IT治理向数据治理的转变,协助医院最大程度的发挥医疗大数据的价值,协助更多的医学专家完成科研成果转化,帮助他们走向世界科研舞台。