阮彤：ChatGPT等大语言模型对医疗信息系统的影响与提升——大语言模型在医疗行业应用系列（一）

发布时间：2023-04-07

　　类ChatGPT的语言模型对于包括医疗在内的各行各业系统的冲击是本质性的，由于语言模型会推动人机交互方式的变化、代码与文档的自动生成、数据的自动分析处理，因此，本质上，会影响所有信息系统。但是，比较重要的变迁可能在三大类系统上，自然语言信息记录与检索类系统、临床知识库与临床科研系统三大类知识/数据密集型系统上。下表列出了这些系统类型对应的典型系统，原有系统的难点，以及大模型的能力带来的可能的提升，以及应用大模型同时可能出现的待解决的技术问题。

表1 大语言模型会改变的系统

微信图片_20230407173123.jpg

　　1自然语言信息记录与检索类系统

　　原本就与自然语言有关的，带有模糊性和个性化的系统，会有更大的变化与受益。比如说，电子病历系统、区域卫生共享平台、专病库系统等，由于数据格式很难达到共识，给系统的构建与变迁带来困难。很长时间以来，业界希望通过信息化标准、互联互通协议、专病数据模型等来规范系统的数据格式，但因为数据格式问题非常琐碎，因此，推广过程困难重重。这个问题的本质在于，凡是用自然语言描述的东西，都有丰富的语义，而任何一种规范，都会损失语义，从而限制未来各种可能的表达。

　　大语言模型的特点在于强大的自然语言理解与生成能力。该能力衍生出了不同格式文档的理解与生成，数据格式的语义转换，数据的自动化的清洗等等。更重要的是，这些能力的激发，并不需要标注大量语料，Zero-Shot、Few-Shot InContext learning以及一些简单的自然语言提示(prompt)，就可以达到比较好的效果。微软的office将可以通过简要描述，生成用户需要的文档，而文本抽取任务、文献检索在Zero-Shot以及简单的示例情况下就可以有比较好的效果。下表显示了面向中文文本的医疗的CBLUE评测在chatGPT上的基本效果。

表2 CBLUE在chatGPT上的测试效果

微信图片_20230407173126.jpg

　　上述的文本生成功能，将对电子病历系统/专科电子病历系统/急诊病历/护理系统等系统，产生较大的影响。电子病历系统的核心功能是可定制的EMR模板，以及基于模板的引导式数据录入。难点并不在于定制模板，而是模板定义规范很难确立，对模板的扩充限制，会影响模板的灵活性，但如果不限制，又会影响模板的利用。而有了大模型，可以放入大量的经典例子进行指令微调，然后通过使用简单的提示(prompt)，表达模板的含义，生成相应的病历数据。而电子病历的质控，也完全可以通过prompt定义质量要求，再自动生成，或是修改过程，或是输入完成后，进行质量控制。其他功能，如导入检验检查数据，或是文档的修改，都可以通过自然语言交互接口完成。

　　大模型对于文档的转化、清洗以及检索和分析功能，将对医院的CDR/RDR/专病库系统产生影响。智能检索与数据转换是传统的CDR/RDR系统的两大难点。基于关键词的检索，由于同义词、上下位词、否定、远程依赖等医疗词汇、语法以及语义层面的特点的存在，远远不能达到CDR系统电子病历筛选数据的要求。由于检索和利用的困难，萌生了大量的数据转换需求，RDR和专病库系统，所谓的文本结构化，数据归一化，本质上就是利用数据格式统一，简化分析利用的困难。而大模型的Zero-Shot的数据转换能力，不仅会给各种快速的数据转换带来方便，也会让业界不再执迷于数据格式，而是侧重于确认数据包含的语义。

　　大模型对于区域卫生平台的好处更为显见。长期以来，区域卫生平台通常会有统一的数据采集规范，对医院上传的数据字段具有复杂而又详尽的格式要求。为了制定这个规范，通常需要多家医院协商，在不同信息能力的医院之间平衡。而为了执行这个规范，又在采集过程增加了很多质量检测。即使如此，由于电子病历包含的数据字段丰富，数据冗余且值域难以规范化，文案之间的语义关系含混，并有大量的自然语言和影像文件，因此，区域平台的数据利用一直是很大的难点。而和CDR以及RDR平台类似，有了大语言模型，对于数据规范变得不那么严格，医院端数据的格式转化，数据的质控，会更为语义化，数据的检索和利用，特别是多模态数据检索和利用，会更有想象空间。

　　2知识库与临床决策支持类系统

　　传统的知识库构建通常采用人工手段，从医书、临床指南，医学文献中抽取知识。这种抽取过程不但费时费力，而且更新困难。更糟糕的是，知识图谱等结构化的方式虽然精确，但语义表达能力远远弱于自然语言，包括多元关系、条件关系，因果关联等等各种知识模式的定义，需要很高的专业认知能力和业务建模能力，而模式的理解和正确性验证也同样有双重门槛。另外，加工后的知识库，由于应用场景不一，和场景结合时，又需要二次加工，也让知识库成为某种“鸡肋”型应用。

　　临床决策支持系统，就是知识库系统的这样一个“鸡肋”应用。从理论上说，我们以诊断和治疗两个关键决策为例，说明其中的难点。

　　诊断难点在于对疾病进行猜测，以及基于猜测的进一步的检验检查，评估诊断的好坏，不仅在于猜测的精准度，检验检查的合理性，也在于迭代交互式的过程方便性。而达到上面的目标，除了需要对病人病情数据的更为完整的观测和了解，对各种疾病出现可能性的概率判断，也需要比传统知识库查询更好的交互手段，需要更为场景化的决策支持系统的设计与评估方式。因此，基于传统知识库的临床诊断，基本上只能作为文献查询辅助用途。

　　而治疗的问题，在于个人病因，病情发展以及个体各种个性化特征，包括多疾病共存与并发疾病等等，知识库系统很难将共性和个性治疗方法的描述，以及各种异常情况的判断，用结构化方法描述。而在临床决策系统中，也很难将特定病情和知识库的条目简单关系起来。

　　大语言模型对文本数据的解析能力，极大方便了知识库系统的构建。而自然语言检索和问答，提升了知识库的应用的便利性。大语言模型体现的推理能力，提供了智能医学诊断和治疗方案推荐的可能性。具体而言，可以通过chatGPT的开源框架langchain的一系列工具，以及chatGPT的各种Zero-Shot抽取能力，将原始书本数据抽取成更为合适的形式。而对于临床决策类的知识库应用，在提升知识库对嵌套、条件、分支和异常、概率等各种表达能力基础上，综合更多的真实世界数据。可以将病人病情通过大模型进行解析，在知识库上进行推理。也可以将知识自动生成数据，与真实数据一起，放入大模型进行训练。当然，大模型的可解释性、不稳定性以及缺乏严密的逻辑推理等问题，也会给临床决策支持带来障碍，可以通过分解决策的步骤，通过外接知识库，对推理的每一步进行严格溯源与控制得到缓解。

　　3临床科研系统

　　从大类来说，临床科研和AI for Science话题有关。其中，生物信息的基因、蛋白、突变、病毒等数据，可以看作是一大类模态，训练的大模型可能带来的生信领域的重大变革。本文讨论的是临床医生日常的科研：包括选择题目、构造CRF表单、病人招募、临床数据采集、科研数据分析以及科研论文撰写等为流程的科研过程，一般分为前瞻性研究和回顾性研究。

　　对于回顾性研究，由于整个过程由于完全是基于数据，LLM将从选题到撰写论文，带来流程性的时效性的重大变革。首先，原来的选题和构造CRF表单的过程，需要调研文献、或是在RDR上分析临床数据，找到可能的方向，这个过程可能在早期需要人类的思考和假设，但一旦思考过程可以记录在案，形成类模板的思考链，就可以通过对于文献的自动分析和数据分析，获得可能的研究方向与字段。对于临床数据采集，如前文所说，利用大模型的数据转换能力，可以快速把数据转换成CRF表单需要的格式。对于论文撰写，由于此类论文本身在模式上有大量的雷同，而差别主要是病种不同，数据不同以及数据结果分析不同。目前的基于数据到文本生成技术，再综合一些常见的模板，文章初稿生成，可以达到一定的效果。理论上，回顾性研究，通过面向特定训练目前的LLM模型，可能可以达到端到端的效果。如果是前瞻性研究，有动态收集数据的过程，可以看作是在特殊训练的LLM模型上增加了一个外在的插件。

　　除了前面所说的系统外，影像和病理检查系统，本身就在被人工智能提升，多模态模型的出现，为直接写出影像检查文本，提供了可能性。也有些系统影响比较小，如HIS、LIS、HRP等涉及财务、药品、检验等交易与结算类医疗业务系统。但如我们所说，由于大模型本身在交互方式、数据统计以及文档与代码生成的能力，这些系统未来也一定会发生变革。

　　当然，目前大模型还存在很多问题，包括稳定性、可解性等等。对于医疗行业来说，最直接的是技术的可获得性问题，因为医疗数据不可能外接到ChatGPT或其他外部运营的大模型上，这就意味着必须要有自己可控的、较为廉价的类似模型。因此，在后面的几次文章中，我将详细阐述如何获得这些能力，以及每个不同系统使用大模型的不同的方法。

　　作者简介

　　阮彤，CHIMA委员，华东理工大学信息科学与工程学院计算机系，博导，教授。现任华东理工大学计算机技术研究所所长，自然语言处理与大数据挖掘实验室主任。长期从事自然语言处理、知识图谱、医学人工智能等方面的研究。

上一篇：潘晓雷：初心如磐，奋楫笃行，我的HIS人生（下）

下一篇：汪平：参加青年辩论赛，成为CHIMA大会上一颗闪亮的星！