郭有:推进临床个性化预测模型的真实世界开发与应用

来源:数字医学与健康 发布时间:2025-01-13
浏览次数:

大数据在临床实践与科研领域中的扩散与融合进入“高铁时代”,这为以机器学习为工具、以构建预测模型为目的的临床数据挖掘研究提供了广阔舞台与无限机遇。临床数据挖掘可实现预测、描述、关联发现、异常检测等研究任务,而构建预测模型在临床数据挖掘中最为重要、也最具临床应用前景。临床预测模型可以实现对疾病发病风险因素识别、诊断分型、治疗效果预判、预后预测,对辅助临床决策、实施精准治疗和提升医疗效率都起到十分重要的作用。当前,临床数据挖掘研究向着多模态预测、多场景应用、多专业方向不断发展,预测模型报道日益攀升。但是,临床数据挖掘研究与临床实践需求之间的异频现象有严重化趋势,医疗实践中应用公开发布预测模型的信心依然若有若无,研究成果在临床实践中的转化应用仍屈指可数。因此,有必要深入审视临床数据挖掘研究的焦点与局限,重新提炼原则共识,克服认知不足与视野局限问题,切实推动可在实践中转化应用的临床数据挖掘研究。

开展临床数据挖掘面临的问题与挑战

临床数据挖研究能够利用最大最真实样本(来自单中心或多中心)构建预测模型,发现临床特定疾病患者中的异质性亚组群体。以机器学习为代表的数据挖掘将预测模型研究推到了临床科研领域的中心地带,形成了当前医学研究的新质动能。但是,现状却是“只听楼梯响,不见人下来”:预测模型在临床实践中并没有产生预期的转化应用,一些关键问题也随之逐渐浮出水面。

首先是临床数据异质性问题。临床数据包含两种截然不同而又密不可分的异质性:1)患者及就诊机构诊疗体系方面存在的真实变异(I类变异),包括患者的风险因素、基因型、表型的变异,以及诊疗体系的施治效率。2)临床数据检测产生的虚假变异(II类变异),包括仪器、试剂、测量、算法和定义等方面造成的变异。把II类变异控制在合理水平,是发现I类变异的前提。更为重要的是,I、II类变异水平与比例相当,是多中心研究和独立性验证的假设基础。但是,目前临床数据挖掘研究并未予以足够认识评估,也未采取措施有效应对。

而且,I类变异分布在临床数据的三个维度:1)临床实践指南更新导致的时间维度的异质性,这必然要求对预测模型进行前瞻性验证,也赋予了特定预测模型一定的有效期。2)患者空间分布的异质性,必然要求使用外来模型前必须进行独立性验证。3)以医疗机构等级为代表的诊疗体系施治水平的异质性。以上情况都极大加剧了临床数据异质性问题,为临床数据挖掘研究中验证预测模型带来了极大挑战。

第二,在临床数据挖掘研究中,研究者对临床问题的理解脱离了临床实践,对临床数据包含的实践逻辑缺乏清晰认知,导致临床预测模型所定义的问题多是虚假临床问题。一个临床问题由三个要素(患者、治疗、效果)和一个原则构成(对比)构成。实践中诊断患者时,多环节间的流转、多学科间的协作与竞争、多角度间的矛盾与妥协,决定了在具体临床问题中相同疾病患者临床定义的多样性和复杂性。临床治疗时,医生决策时考虑因素和决策过程、措施稳定性等信息并非都记录在临床数据中,各因素间(如疾病临床表型之间)复杂的临床逻辑关系在数据治理过程中也会因多种原因被忽略或删失。观察临床治疗效果时,观察指标种类多、定义多、测量手段多,数据分布规律不齐,在临床治疗中的决策作用也不尽相同,彼此间关系也有亲疏远近,这些信息并未在预测模型开发研究中得到完整准确理解和应用。

上述情况广泛存在,使得有独立性验证加持的临床预测模型,也很难在临床实践中赢得应用信心和部署机会。

个体化临床预测模型的开发与应用

临床数据变异的异源与多维分布,决定了在临床实践中使用外来预测模型时,必须经过独立性验证。药物、器械、生物标志等开发经济和时间成本高,有跨时空使用的必要性,自然也应该得到严格的独立性评估。然而,利用临床数据挖掘开发预测模型的成本相比可以忽略不计,立足医疗机构甚至医生个人,利用公开、透明、可靠的分析方法,开发个性化预测模型,相比使用外来预测模型,可以克服II类变异与I类变异中的空间、机构维度上的数据变异,因此拥有难以比拟的效率与应用优势。

临床预测模型是临床数据和开发流程的融合产物。通过外部验证并不代表克服I和II类变异对预测模型的影响,也必然会影响外来临床预测模型准确性。而且临床预测模型利用外部队列数据验证时,准确性毫无例外都会下降。但内部验证可以为临床预测模型的临床数据挖掘分析流程提供强可靠有力的支持。因此,相比于预测模型本身,透明可靠的临床数据挖掘分析流程更不会受到临床数据异质性影响,更容易得到移植、评估。利用透明可靠的临床数据挖掘分析流程,基于本地真实世界数据开发个性化的临床预测模型并实施部署,也就水到渠成。

此外,一些临床问题也的确适合开发通用预测模型,然而更多的临床问题仅适合开发通用的建模流程。毫无疑问,适合开发通用模型的临床问题也适合开发通用的建模方法,但反之则不然。同时,一个容易引起争议的问题是,已发布的预测模型融入了开发数据集包含的顶级临床专家知识经验。但是,在专家指导下提升本地临床实践,可以显著提升临床数据质量,用于开发更好的个性化预测模型,这种选择无疑更具优势。

临床数据挖掘研究的展望与未来

数据技术的发展,极大增强了记录和再分析临床复杂诊疗过程的能力。利用可靠的预测模型开发方法,基于自有临床数据开发构建个性化临床预测模型,具有无可比拟的临床实践转化优势。毫无疑问,在临床实践中自觉开展数据挖掘研究,开发满足特定诊疗场景需求的个性化预测模型,并将其应用于临床决策过程中,将成为临床决策者应有的新质素质和责任担当,形成医疗领域的新质生产力。

传统预测模型如逻辑回归模型天然具有极好临床可解释性,这塑造了社会公众与临床专家对临床预测模型可解释性的固定期望。更为重要的是,模型可解释性有助于对模型预测结果的理解和信任,也有助于发现潜在偏倚、法规监管和伦理审查等。因此,临床预测模型可解释性不仅是技术问题,更是伦理、法律与实践混合的复杂技术型社会问题。当前,局部可解释性和SHAP值(SHapley Additive exPlanations)、注意力机制、可视化等工具在模型可解释性方面卓有贡献。但是,选择简单模型、特征设计与选择、透明训练测试、医工全时合作等有效手段运用明显不足,复杂模型如深度神经网络需要持续开发和改进解释技术。

当前,算法、算力、数据在医疗机构不断融合完善,个性化临床预测模型在临床实践中的产学研一体化发展扩散必将大大加速,这既有助于医疗效率、医疗质量和医疗公平的帕累托改进,也有助于实现全民健康与医学数字化转型,必定会促进医疗教育、健康产业的重塑与涅槃。

作者为赣南医学院第一附属医院医药大数据中心副主任(负责人)

来源:数字医学与健康