郭有:临床数据挖掘的基本流程

发布时间:2023-01-12
浏览次数:

  临床数据挖掘过程包括定义临床问题并确定变量数据集、从业务信息系统中提取数据、根据数据特征与分析目的对数据做预处理,特征变量选择或特征提取、构建模型与评价,最后是结论报告与模型应用。

  在数据挖掘过程中,特别需要强调三点:

  第一,为降低生物噪声、数据噪声、数据缺失等不可控因素对于数据挖掘的影响,数据挖掘的每项具体过程或细节都需要反复探索;

  第二,数据挖掘不能简单依赖一种统计方法,应该考虑多种技术方法,并对不同方法进行比对与适当改进,以使数据挖掘方法适用于研究对象及变量数据分布特征;

  第三,在特征提取时,为有效地降维降噪,数据分析模型中需要引入部分参数,参数选择设置的正确与否直接影响降维降噪效果,因此需要反复探索。

  一 定义临床问题

  提出临床问题是临床数据挖掘研究的核心过程,一个有价值的、有数据支持的临床问题是数据挖掘研究的前提,有助于制定变量数据收集策略,提高解决临床问题的针对性。找准临床问题不仅要具备对患者的责任心、丰富的临床诊疗知识、扎实的临床实践,而且要有一定的医患心理行为学知识与综合分析判断能力。

  定义临床问题是确定变量数据集的前提,也是数据挖掘中的最主要的任务, 推荐采用PIOC法则(Participants,Interventions,Outcomes,Comparisons)来定义临床问题。例如,临床问题是“肝癌患者术后早期是否复发”,PIOC分别为以下四方面:

  Participants指明确临床诊断的肝癌患者,需明确诊断手段和诊断标准;

  Interventions指手术切除,需要进一步明确切除范围、具体术式如腹腔镜下肝切除术;

  Outcomes指早期复发或进一步明确为术后特定时间段内的原位或远端复发。此外,还有次要结局、竞争性结局、自报告等;

  Comparisons是指肝癌术后早期有复发和无复发患者形成的两个可比组,即复发组VS无复发组。

  若临床问题属于诊断范畴,可省去Interventions。例如,临床问题是“局部进展期直肠癌患者是否有淋巴结转移”,则PIOC分别为:

  Participants是明确临床诊断的局部进展期直肠癌;

  Outcomes是特定部位淋巴结是否出现肿瘤转移;

  Comparisons为有无淋巴结转移的局部进展期直肠癌患者形成的可比较组,即淋巴结转移组VS淋巴结非转移组。

  在临床研究方案中,将临床结局Outcomes定义为“死亡”,往往不符合临床实践认识,且一家医院无法满足临床研究对阳性病例的样本量需求。这主要是因为医疗技术先进,多数危重疾病已经慢病化。而且濒死患者会自行转院,或出于传统习俗出院返家。因此,Outcomes采用“临床不良事件发生”则更适合临床现实场景,可以将医嘱中“术前抗生素使用”“电除颤”“心外按压或盐酸肾上腺素注射液3次”等急危病情救治措施作为临床不良结局。

  二 数据准备与数据提取

  根据PIOC法则确定的临床问题和临床特征变量定义,从医疗信息系统如HIS、LIS中提取数据、建立临床数据挖掘的变量数据集。

  提取临床特征变量数据,由数据工程师利用结构化查询语言(Structured Query Language,SQL)代码批量处理。非结构化和半结构数据,需要利用自然语言处理技术配合人工标注,提取具体临床特征变量。在实际工作中,因研究方案经常更迭,临床数据提取会被多次修正。

  慢性疾病研究涉及患者数量多、治疗周期长,一家医院患者的临床数据完整程度不高,许多重要指标需随访跟踪,完成难度相对较大。在“直肠癌化疗后心血管疾病发生风险研究”中,研究结果的影响因素就比较多。临床科研工作者很难掌握直肠癌患者院外医嘱执行情况,化疗周期长和患者流动性也使得疾病进展中获取特征变量数据难度较大,难以准确判断心血管疾病患病时点。这些因素都增加了化疗与心血管疾病的因果关系分析难度。

  急危重症患者的治疗周期比较短,治疗见效快,临床特征变量数据的完整度也比较高,数据提取工作相对容易。在“急性胰腺炎患者是否耐受院内肠营养研究”中,患者规模相对较小、治疗周期短、临床特征变量数据的完整度高,治疗后“是否耐受肠营养”在病程记录中有完整记录。

  此外,在提取特征变量数据过程中,需注意在所选时间段内业务信息系统是否发生变更、特征变量编码法则是否发生改变,是否会对分析结果产生影响。提取所需数据时,要提取设定时间段内相应特征变量的质控数据,方便后续数据清洗,并将数据以常见格式储存。

  三 数据预处理

  从业务信息系统提取到的原始数据,需要进一步加工以适于后续分析。数据预处理包括数据清洗、标准、清理和变换等。其中,数据清洗是数据预处理最为关键的一步。医院业务信息系统中存在着大量脏数据(Dirty Read)。在保证与原始数据一致性与可追溯性的基础上,临床科研工作者需要对空缺数据、重复数据、异常数据进行反复确定、降低误差,最终形成便于挖掘分析的数据。

  在处理缺失数据时,需要考虑缺失比例、缺失是否随机,因为特征变量的字段编码或名称改变也会导致数据提取失效。在数据去重时,需要依据主索引对于特征变量数据进行比对去重,门诊数据要保留末次就诊记录值。在识别和剔除异常值时,可以执行三倍标准差原则。由于各项临床特征变量指标取值范围不同,故其特征变量维度(单位)也不同。要将各个特征变量缩放到相同量级,就需要对索引特征变量数据进行归一标准化处理。

  四 特征提取

  特征提取,又称为自变量筛选,是数据挖掘最为关键的一个分析环节。由于临床特征变量的数目较多,其中一些特征变量在预测临床结局时,实际临床意义不大或缺乏临床应用场景。因此,需要对特征变量进行选择,即特征提取。其目的是探索特征变量对于预测结局的影响大小及重要性,进而综合权衡选择对结局影响更加显著的或有巨大临床应用价值的特征变量进入预测模型,以提高预测模型的稳定性、准确性、实用性。

  特征提取方法有相关分析、逻辑回归模型(Logistic regression)、平均准确度减少(Mean accuracy reduction)法、递归特征消除(Recursive feature elimination)、互信息与最大信息法则(Mutual information and maximum information),相关分析最为常用,具体分析方法可依据特征变量的数据分布类型进行确定。

  五 建立预测建模与模型评估

  提取特征后,使用逻辑回归模型、决策树、随机森林、随机支持向量机、神经网络等机器学习算法,建立全局最优(Global optimal)或局部最优(Local optimal)的预测模型。

  评估预测模型,就是利用内部数据或公共数据库中的同质研究对象数据集,对预测模型的准确性与临床意义进行评估验证。使用内部数据进行评估属于交叉验证,使用外部数据进行评估则属于独立性验证,后者验证力度更强,也更受欢迎,但难度相对要大。

  评估预测模型的临床意义,就是从临床使用预测模型后的收益角度进行评估,其重要性并不亚于准确性评估。区分准确性评估和临床意义评估非常重要,如建立分子诊断模型或者影像诊断模型,用于判断直肠癌患者是否存在淋巴结转移即属于准确性问题。而使用上述诊断模型指导患者接受治疗后的效果是否更好,即属于诊断模型的临床意义问题。

  模型评估是建模过程中最为关键的一步,这就要求研究者十分熟悉数据挖掘方法与临床特征变量的各自特点,才能科学评估并建立准确且有临床价值的预测模型。

  六 分析报告与结果发表

  基于上述五个分析过程,总结报告需要详细描述研究设计、特征变量数据集的建立和预处理、数据质控、检测分析平台、统计分析流程和原理,并在结果报告中恰当使用图表和图形等可视化方式,呈现特征变量数据的基本特征及模型拟合优度。

  临床科研数据挖掘研究融合了多学科知识,需要多学科人员协同合作,在临床数据处理过程中需要不断修正研究方案,重新调整数据提取和分析策略。但是,分析方案的更迭,向多方参与协作这一方式提出了挑战。临床科研工作者负责临床背景与意义和数据内容需求,包括特征变量的重要性、名称、来源、取值范围、临床意义和提取标准,数据工程师负责数据提取代码、数据分析过程和结果输出等分析执行与报告撰写。建立合理的数据质控点,可以使临床数据挖掘有据可依,既方便追溯,又有助于多方协同合作,及时发现漏洞,完善研究方案,提高工作效率。

  本文选自作者主编出版的《大数据时代下的临床科研数据挖掘》(江西科学技术出版社)第一章第四节

微信图片_20230112101920.jpg

  作者简介

微信图片_20230112101923.jpg

  郭有,男、医学博士,双聘硕导(赣南医学院公共卫生、江西理工大学计算机科学与技术)、副教授,赣南医学院第一附属医院医药大数据中心副主任(负责人)、赣南医学院创新团队负责人、赣州市医药大数据重点实验室主任。