阮彤:ChatGPT等大语言模型对医疗信息系统的影响与提升——大语言模型在医疗行业应用系列(一)
类ChatGPT的语言模型对于包括医疗在内的各行各业系统的冲击是本质性的,由于语言模型会推动人机交互方式的变化、代码与文档的自动生成、数据的自动分析处理,因此,本质上,会影响所有信息系统。但是,比较重要的变迁可能在三大类系统上,自然语言信息记录与检索类系统、临床知识库与临床科研系统三大类知识/数据密集型系统上。下表列出了这些系统类型对应的典型系统,原有系统的难点,以及大模型的能力带来的可能的提升,以及应用大模型同时可能出现的待解决的技术问题。
表1 大语言模型会改变的系统
1自然语言信息记录与检索类系统
原本就与自然语言有关的,带有模糊性和个性化的系统,会有更大的变化与受益。比如说,电子病历系统、区域卫生共享平台、专病库系统等,由于数据格式很难达到共识,给系统的构建与变迁带来困难。很长时间以来,业界希望通过信息化标准、互联互通协议、专病数据模型等来规范系统的数据格式,但因为数据格式问题非常琐碎,因此,推广过程困难重重。这个问题的本质在于,凡是用自然语言描述的东西,都有丰富的语义,而任何一种规范,都会损失语义,从而限制未来各种可能的表达。
大语言模型的特点在于强大的自然语言理解与生成能力。该能力衍生出了不同格式文档的理解与生成,数据格式的语义转换,数据的自动化的清洗等等。更重要的是,这些能力的激发,并不需要标注大量语料,Zero-Shot、Few-Shot InContext learning以及一些简单的自然语言提示(prompt),就可以达到比较好的效果。微软的office将可以通过简要描述,生成用户需要的文档,而文本抽取任务、文献检索在Zero-Shot以及简单的示例情况下就可以有比较好的效果。下表显示了面向中文文本的医疗的CBLUE评测在chatGPT上的基本效果。
表2 CBLUE在chatGPT上的测试效果
上述的文本生成功能,将对电子病历系统/专科电子病历系统/急诊病历/护理系统等系统,产生较大的影响。电子病历系统的核心功能是可定制的EMR模板,以及基于模板的引导式数据录入。难点并不在于定制模板,而是模板定义规范很难确立,对模板的扩充限制,会影响模板的灵活性,但如果不限制,又会影响模板的利用。而有了大模型,可以放入大量的经典例子进行指令微调,然后通过使用简单的提示(prompt),表达模板的含义,生成相应的病历数据。而电子病历的质控,也完全可以通过prompt定义质量要求,再自动生成,或是修改过程,或是输入完成后,进行质量控制。其他功能,如导入检验检查数据,或是文档的修改,都可以通过自然语言交互接口完成。
大模型对于文档的转化、清洗以及检索和分析功能,将对医院的CDR/RDR/专病库系统产生影响。智能检索与数据转换是传统的CDR/RDR系统的两大难点。基于关键词的检索,由于同义词、上下位词、否定、远程依赖等医疗词汇、语法以及语义层面的特点的存在,远远不能达到CDR系统电子病历筛选数据的要求。由于检索和利用的困难,萌生了大量的数据转换需求,RDR和专病库系统,所谓的文本结构化,数据归一化,本质上就是利用数据格式统一,简化分析利用的困难。而大模型的Zero-Shot的数据转换能力,不仅会给各种快速的数据转换带来方便,也会让业界不再执迷于数据格式,而是侧重于确认数据包含的语义。
大模型对于区域卫生平台的好处更为显见。长期以来,区域卫生平台通常会有统一的数据采集规范,对医院上传的数据字段具有复杂而又详尽的格式要求。为了制定这个规范,通常需要多家医院协商,在不同信息能力的医院之间平衡。而为了执行这个规范,又在采集过程增加了很多质量检测。即使如此,由于电子病历包含的数据字段丰富,数据冗余且值域难以规范化,文案之间的语义关系含混,并有大量的自然语言和影像文件,因此,区域平台的数据利用一直是很大的难点。而和CDR以及RDR平台类似,有了大语言模型,对于数据规范变得不那么严格,医院端数据的格式转化,数据的质控,会更为语义化,数据的检索和利用,特别是多模态数据检索和利用,会更有想象空间。
2知识库与临床决策支持类系统
传统的知识库构建通常采用人工手段,从医书、临床指南,医学文献中抽取知识。这种抽取过程不但费时费力,而且更新困难。更糟糕的是,知识图谱等结构化的方式虽然精确,但语义表达能力远远弱于自然语言,包括多元关系、条件关系,因果关联等等各种知识模式的定义,需要很高的专业认知能力和业务建模能力,而模式的理解和正确性验证也同样有双重门槛。另外,加工后的知识库,由于应用场景不一,和场景结合时,又需要二次加工,也让知识库成为某种“鸡肋”型应用。
临床决策支持系统,就是知识库系统的这样一个“鸡肋”应用。从理论上说,我们以诊断和治疗两个关键决策为例,说明其中的难点。
诊断难点在于对疾病进行猜测,以及基于猜测的进一步的检验检查,评估诊断的好坏,不仅在于猜测的精准度,检验检查的合理性,也在于迭代交互式的过程方便性。而达到上面的目标,除了需要对病人病情数据的更为完整的观测和了解,对各种疾病出现可能性的概率判断,也需要比传统知识库查询更好的交互手段,需要更为场景化的决策支持系统的设计与评估方式。因此,基于传统知识库的临床诊断,基本上只能作为文献查询辅助用途。
而治疗的问题,在于个人病因,病情发展以及个体各种个性化特征,包括多疾病共存与并发疾病等等,知识库系统很难将共性和个性治疗方法的描述,以及各种异常情况的判断,用结构化方法描述。而在临床决策系统中,也很难将特定病情和知识库的条目简单关系起来。
大语言模型对文本数据的解析能力,极大方便了知识库系统的构建。而自然语言检索和问答,提升了知识库的应用的便利性。大语言模型体现的推理能力,提供了智能医学诊断和治疗方案推荐的可能性。具体而言,可以通过chatGPT的开源框架langchain的一系列工具,以及chatGPT的各种Zero-Shot抽取能力,将原始书本数据抽取成更为合适的形式。而对于临床决策类的知识库应用,在提升知识库对嵌套、条件、分支和异常、概率等各种表达能力基础上,综合更多的真实世界数据。可以将病人病情通过大模型进行解析,在知识库上进行推理。也可以将知识自动生成数据,与真实数据一起,放入大模型进行训练。当然,大模型的可解释性、不稳定性以及缺乏严密的逻辑推理等问题,也会给临床决策支持带来障碍,可以通过分解决策的步骤,通过外接知识库,对推理的每一步进行严格溯源与控制得到缓解。
3临床科研系统
从大类来说,临床科研和AI for Science话题有关。其中,生物信息的基因、蛋白、突变、病毒等数据,可以看作是一大类模态,训练的大模型可能带来的生信领域的重大变革。本文讨论的是临床医生日常的科研:包括选择题目、构造CRF表单、病人招募、临床数据采集、科研数据分析以及科研论文撰写等为流程的科研过程,一般分为前瞻性研究和回顾性研究。
对于回顾性研究,由于整个过程由于完全是基于数据,LLM将从选题到撰写论文,带来流程性的时效性的重大变革。首先,原来的选题和构造CRF表单的过程,需要调研文献、或是在RDR上分析临床数据,找到可能的方向,这个过程可能在早期需要人类的思考和假设,但一旦思考过程可以记录在案,形成类模板的思考链,就可以通过对于文献的自动分析和数据分析,获得可能的研究方向与字段。对于临床数据采集,如前文所说,利用大模型的数据转换能力,可以快速把数据转换成CRF表单需要的格式。对于论文撰写,由于此类论文本身在模式上有大量的雷同,而差别主要是病种不同,数据不同以及数据结果分析不同。目前的基于数据到文本生成技术,再综合一些常见的模板,文章初稿生成,可以达到一定的效果。理论上,回顾性研究,通过面向特定训练目前的LLM模型,可能可以达到端到端的效果。如果是前瞻性研究,有动态收集数据的过程,可以看作是在特殊训练的LLM模型上增加了一个外在的插件。
除了前面所说的系统外,影像和病理检查系统,本身就在被人工智能提升,多模态模型的出现,为直接写出影像检查文本,提供了可能性。 也有些系统影响比较小,如HIS、LIS、HRP等涉及财务、药品、检验等交易与结算类医疗业务系统。但如我们所说,由于大模型本身在交互方式、数据统计以及文档与代码生成的能力,这些系统未来也一定会发生变革。
当然,目前大模型还存在很多问题,包括稳定性、可解性等等。对于医疗行业来说,最直接的是技术的可获得性问题,因为医疗数据不可能外接到ChatGPT或其他外部运营的大模型上,这就意味着必须要有自己可控的、较为廉价的类似模型。因此,在后面的几次文章中,我将详细阐述如何获得这些能力,以及每个不同系统使用大模型的不同的方法。
作者简介
阮彤,CHIMA委员,华东理工大学信息科学与工程学院计算机系,博导,教授。现任华东理工大学计算机技术研究所所长,自然语言处理与大数据挖掘实验室主任。长期从事自然语言处理、知识图谱、医学人工智能等方面的研究。