郭有：临床数据挖掘的基本思想

发布时间：2023-04-12

　　临床科研数据挖掘以临床问题为导向。临床诊疗场景繁杂，不同场景面临的问题各有不同，对数据挖掘的需求也不同，决定了临床数据挖掘研究的多样化、个性化。

　　临床数据挖掘涉及学科范围广、技术难度大，需要将信息处理、计算机、统计分析有机融合为挖掘工具来解决临床科学问题。这就要求研究者具备深厚的医学知识，以洞察临床场景背后潜藏的有待解决的临床科学问题，更需要掌握解决问题的数据挖掘技术。因为基于临床诊疗数据和面向临床诊疗应用，任何一种分析算法都没有绝对优劣，必须结合具体临床应用场景和临床数据特点，选择合适方法才能得到准确而有价值的分析结果。因此，在反复执行临床数据挖掘的各个环节时，需要贯彻临床思维，从多个角度反复思考权衡。

　　一临床应用场景为导向

　　临床问题是数据挖掘的起点和归宿点，解决什么样的临床问题，能解决到何种程度，从根本上决定了临床数据挖掘研究成果的临床价值。因此，对临床问题的把握和认知，直接决定了临床数据挖掘结果的命运，是文章发表后的束之高阁，还是在临床实践中生根发芽。此外，受到广泛认可的跨行业数据挖掘标准流程(Cross-industry standard process for data mining，CRISP-DM)，也将理解和把握应用场景排在数据挖掘的首要位置。因此，把临床问题有效转化为数据分析需求，才能设计临床特征变量的数据提取、建立统计指标体系、合理选择参数、拟定实施计划，这就要求把临床思维贯穿至整个数据挖掘研究过程中。

　　对于临床数据挖掘初学者，很容易被数据挖掘本身的技术魅力所吸引，特别是在熟悉和掌握了一些数据分析技术后，极容易陷入“唯数据、唯统计”的陷阱之中，把数据挖掘技术与分析过程以华彩炫目的可视化作为重点，把解决临床问题却放在了次要地位，甚至忘记了数据挖掘起点的临床问题。

　　以临床应用场景为导向，可以从四个方面思考临床数据挖掘研究的整个过程。

　　一是临床问题的重要性，可以通过疾病负担如受累患者的群体规模、不良结局的严重性、经济负担、生活质量等多个角度衡量考虑。

　　二是对临床特征变量分析变换时，根据特征变量取值分布特征及临床特点来决定转换方式。例如，分析血小板是不是术后感染的影响因素，就需要根据血小板数据分布范围的临床意义，将连续性变量数据转换为降低、正常、升高三个等级。正确合理转换特征变量有两个优点：能够凸显临床特征变量对结局影响的效应大小;便于解释临床特征变量效应值的临床意义。

　　三是在选择特征变量或特征提取时，除了考虑对结局影响的效应值大小，还需要考虑以下情况：①特征变量的临床检测手段或检测工具在临床诊疗目标人群中的使用率。若某个临床特征变量检测手段使用频率低，但是很重要，就可以使用其他相关特征变量或构建预测模型加以代替。②特征变量在目标人群中的流行率。例如，是否选择肥胖作为术后严重感染的预测模型的特征变量，除了考虑与结局的效应值(OR、RR、HR)大小外，还需要考虑目标人群的肥胖率。如果目标人群肥胖率过低，则可不考虑将其纳入预测模型。

　　四是模型评估时的临床考虑。临床模型预测不准是常态，预测准确是变态。临床数据分析和预测模型面对的是带有强烈不确定性和变异性的临床数据，预测不准(小于100%)是一种常态。但是，不准确的预测价值在哪里呢?来自临床实践的对照，与合理对照比较后，才能充分展现预测模型的临床价值。更为重要的是，除了从模型准确性角度进行评估外，更要从模型使用的预期临床收益角度进行评估。

　　二临床问题背后的多学科问题

　　常见临床问题可以分为五类。

　　病因：哪些因素与发病有关?什么机制?分子网络?

　　诊断：目前诊断的检查手段准确性如何?安全、可靠、方便、经济吗?可及性如何?

　　治疗：当前治疗手段有效性如何?新方案如何?

　　预后：治疗后临床结局受哪些因素影响?这些因素能够改变吗?改变难吗?

　　成本：诊断或干预的经济费用是多少?如何提高收益?

　　临床问题是核心，只有将临床问题背后的科学问题说清楚了，才能知道要将哪些特征变量数据纳入分析。将临床问题分解成科学问题时，会发现一个临床问题背后常常存在多个科学问题。按照PIOC法则，可以把“如何提高局部进展期直肠癌新辅助放化疗后完全应答率”拆解为几个问题。

　　Participants存在诊断准确性问题，混入了其他类型的患者，需要进一步提高准确性。

　　Participants诊断是准确的，但是现有诊断分型不充分，不能区分患者中的耐药和敏感者。

　　Participants现有治疗方案需要改进，需要新的治疗方案，如全辅助放化疗治疗。

　　Participants接受新辅助放化疗后，判断患者是否完全应答的检查方法不够准确，需要新的手段或多学科判断。

　　Participants新辅助放化疗后，判断应答的时间点需要优化。

　　这就是临床科学问题的主要类型。任何数据挖掘，不仅仅是针对一种问题，而且一般一次只选择一个科学问题进行数据挖掘分析。如果科学问题太多，则难以组织数据，分析也非常复杂，导致很难执行。

　　三控制多重检验的假阳性发现率

　　在临床数据挖掘研究中，多重检验(Multiplicity test)普遍存在，其中四种情况最为常见。第一种，多次使用假设检验判断特定临床结局在三个以上比较组间是否有差别。第二种，多次使用假设检验判断多个临床结局如肿瘤复发、转移、并发症、死亡等在两组间是否有区别。第三种，多次使用假设检验判断成千上万个特征变量如基因组核苷酸位点多态性、转录组、蛋白质组、代谢组等生物分子是否与某特定结局相关。第四种，多次使用假设检验判断多个变量两两之间是否存在相关性。

　　每次假设检验都有错误风险，特别是当拒绝原假设时，会犯I类错误即假阳性(False positive)。对同一个问题进行多次假设检验，I类错误就会积累膨胀。因此，需要采取适当方法，将总的I类错误控制在预定水准以下，这就是对多重检验的校正。

　　美国Benjamini和Hochberg在1995年首次提出了假阳性发现率(False discovery rate，FDR)的概念，即阳性检验结果中错判所占比例，并给出了相应控制方法，简称BH方法。相对于I类错误取值校正，FDR可以根据数据挖掘需要灵活取值，作为选择变量或特征提取的筛选标准。特别需要强调的是，FDR是基于在特定无效假设下的P值计算而来，且特征变量与结局变量间广泛存在着强弱不等的相关性。所以，FDR并非必然的绝对准确。

　　四亚组分析

　　亚组分析(Subgroup analysis)是按照研究对象的某个特征如人口统计学特征、临床病史特征、分子和并发症等，将研究对象分成不同的亚组或子集(Subset)，然后在不同亚组中分别计算特征变量对临床结局影响的效应值，并进一步进行比较。其目的是探索干预措施对具有上述某种特征患者的疗效是否会更好。例如，治疗急性冠脉综合征，替格瑞洛比氯吡格雷疗效好。但是，患者使用了大剂量阿司匹林后，氯吡格雷比替格瑞洛的疗效好。

　　亚组设定主要考虑临床应用场景。根据分析目的，可以将亚组分析分为三类——探索性(Exploratory)、验证性(Confirmatory)和支持性(Supportive)。探索性亚组分析是通过亚组分析探索药物或治疗方案对不同亚组患者可能存在的疗效和安全性上的差异，主要关注差异的可能机制或临床合理性。验证性亚组分析是按照预先制订的研究计划，以特定亚组为主要目标人群，能够对I类错误进行控制的亚组分析，以确证亚群患者的临床效果。支持性亚组分析是通过亚组分析探讨药物或方案的疗效和安全性在各亚组中的一致性，为研究结论适用于全人群提供进一步的证据支持。

　　但是，探索性亚组分析有引入偏倚的风险，从而使结论不够稳健甚至错误，需要进一步在足够的统计把握度下验证分析。亚组分析常见错误是分别检验各个亚组的效应值是否有统计学意义，这会导致假阳性率增高。正确的做法是采用交互分析判断各亚组的效应值是否有差别。当亚组分析结果与主要研究结论冲突时，应结合病理生理学原理、非临床和药理学支持、相似药物的临床经验、其他支持性终点结果、亚组的获益—风险评价、临床医疗需求和其他实际考虑，忌统计分析至上。

　　五分层分析

　　分层分析的目的是控制混杂变量后，对各层研究对象进行合并，从而增大研究样本量，增加研究说服力。

　　分层分析是按照某个待控制的混杂变量，将研究对象分层，然后分层估计特征变量对临床结局影响的效应值，再根据各层效应值是否一致，决定是否对各层研究对象进行合并。

　　年龄是临床数据挖掘研究中最常见的混杂变量，它与疾病诊断、治疗、预后存在着极为密切的关系。在进行分层分析时，要将连续性变量转变为有序分类变量。如何对年龄进行分层即不造成信息损失，又提高数据利用效率呢?这里介绍两种方法。第一种方法是依据专业知识进行判断，如大家公认早发性结直肠癌的年龄以45岁为截断点。第二种方法是依据年龄在两个比较组(Comparisons)源人群中分布的截断值(Cut off value)来划分，即年龄等于截断值的个体，来自两个比较组源人群的概率是相同的。从数据挖掘角度来说，更倾向于推荐第二种方法。

　　因此，分层分析常用于数据挖掘的验证阶段。其流程是先在总人群中研究计算特征变量与临床结局的关联效应值如RR或OR，然后按照混杂变量对目标人群分层。在各层研究对象中分别计算关联效应值，并进行比较。若各层所计算的关联效应值不一致，则分层报告关联效应值。如果基本一致，则可以用 Mantel-Haenszel法计算合并关联效应值，即控制混杂变量后的调整关联效应值。若调整关联效应值与分层前不一致，如RR或OR小于1时差值在0.1以上，或RR或OR大于1时差值在0.5以上，可认为分层变量存在着混杂效应。

　　需要强调的是，实际研究中混杂变量数目往往较多，而且非常复杂，分层分析时研究对象被分割为很多亚层，计算就会变得非常复杂。同时，每一层的样本量就会变得很少，结果也会很不稳定。此外，可采用倾向性评分法(Propensity Score Analysis，PSA)、多因素调整分析(Multivariable risk adjustment)、工具变量分析(Instrumnental Variable Analysis，IVA)等方法控制混杂变量。其中，临床数据挖掘中使用频率最高的是倾向评分法。

　　六对照选择

　　对比是临床研究方法学的逻辑核心，无论何种类型临床问题，对照选择都必不可少，各类研究方法本质都是选择最可比的对照组。对比思路有两种。一种是由特征不同的两个群体间形成对照，如病例对照研究就是病例组与非病例组形成对照，队列研究是特征变量暴露组与非暴露组形成对照。另一种对照思路是同一个体特征不同的两个时间段之间形成对照，如病例交叉研究就是某结局发生前特定时间段与非结局前特定时间段形成对照。

　　医疗大数据的积累，显著增加了临床研究的对照类型。但是，在回答特定临床研究问题时，研究者经常面临对照个体选择困难的挑战。当某临床专病患者全部都使用某一种药物时，在数据库中必然找不到未用该药的对照个体。当存在临床指征偏倚、疾病严重程度等难控制、难测量的混杂变量时，同样很难找到直接可比的对照个体。指征偏倚是最常见的混杂变量，病情严重患者倾向于获得治疗或获得强化治疗，最终导致治疗结局看起来非常糟糕，似乎治疗患者反而预后更差。

　　此外，对照选择也跟研究成本及可行性密切相关。在保证结果可靠的前提下，样本量尽可能小、特征变量数目尽量少些。这不仅能降低研究难度，也更符合数据安全与伦理安全要求。对照选择的需求难题，都要求数据挖掘时不断思考如何优化或提出更为妥善的对照选择策略。但是，必须明确指出，任何一种对照选择策略都不可能适用于所有临床研究问题，都存在一定的局限性。

　　理想可比的对照往往很难找到，对照选择不尽完美时，就需要评估研究结果受到何种影响及影响大小。既往病例对照研究都会提及，对照选择会造成结果高估还是低估。如采用病例对照研究宫颈癌与人乳头状瘤病毒的关系，选择修女作为对照会造成关联被高估，选择性工作者作为对照会造成关联被低估。

　　定量评估不同类型对照组对效应值的影响有两种方法：

　　第一种思路是计算E值。研究获得的E值越大，代表特征变量与临床结局之间的关联强度，越难以被未知混杂因素抵消。反之， E值较小时，尤其接近1，研究者需要慎重看待，说明研究发现的关联很容易被未知混杂因素所影响甚至反转。提倡在报告观察性研究结果时，报告E值以辅助结果解读。

　　第二种思路是，在不做任何前提假设的情况下，利用可获取的各种人群参数，直接计算关联强度的下限值。具体计算过程可以登录在线计算工具网址：http://selection-bias.louisahsmith.com/。

　　临床数据挖掘直面“如何选择对照”，极大拓展了对照选择策略，也引领相关方法学的革新和优化。认识对照选择对研究结果的潜在影响，可以通过计算E值、真实关联强度值下限来反映，更好促进研究结果的分享、解读与利用。

　　本文选自作者主编出版的《大数据时代下的临床科研数据挖掘》

　　作者简介

微信图片_20230412163227.jpg

　　郭有，男、医学博士，双聘硕导(赣南医学院公共卫生、江西理工大学计算机科学与技术)、副教授，赣南医学院第一附属医院医药大数据中心副主任(负责人)、赣南医学院创新团队负责人、赣州市医药大数据重点实验室主任。

　　点击此处可登录在线计算工具网址

上一篇：医疗收费电子票据应用与探讨

下一篇：魏素珍：基层医院信息化建设实践