阮彤：大模型给电子病历互联互通带来的变革 — 从结构互通到语义互通

发布时间：2024-04-24

　　“互联互通”标准的目的是面向机器，而不是面向人的。人可以理解所有医院的电子病历，但是在大模型出现之前，机器不能够理解自然语言，需要一个标准方法来描述电子病历，方便电子病历在不同医院之间流转。因此，电子病历的互联互通，本质指的是A医院一台机器，可以同时处理B医院的电子病历。

　　大模型的出现使机器在理解自然语言的基础上，延伸到对医学语言和电子病历的理解。如果机器能够理解电子病历，电子病历就可以直接在不同系统中进行自动化处理，理论上是不需要互联互通标准的。例如，如果大模型可以将A医院的电子病历的形式，自动转换成B医院的格式，制定一个中间标准还有什么必要呢?

　　我们的假设和推理过程是这样的：

　　1.一个足够好的大模型是能够理解自然语言的；

　　2.而电子病历可以看作是一种带有特殊格式的、具有特定词汇的自然语言。因此，大模型未来能够理解电子病历是必然的；

　　3.理解电子病历，意味着大模型可以自动在多家医院的电子病历格式之间做转换；

　　4.互联互通标准的意义在于可以机器处理多家医院的病历，所以既然可以自动转换，就不用互联互通标准了。

　　事实上是，上面的几个假设在目前阶段并不完全成立，主要在于：

　　1.大模型对电子病历理解还不够充分；

　　2.转换过程不是无损的，可能会出问题；

　　3.互联互通标准定义了一种事实上的电子病历“书写标准”，表达了电子病历应该包含的字段，以及字段之间的关系，隐含了一定的质控要求。

　　因此，我们需要一个面向未来、更为智能化的互联互通标准，这个标准主要有两个特点：

　　1.一个面向大模型、更为灵活、可扩充的互联互通规范。

　　所谓面向大模型，就是在撰写标准的时候，提供大模型容易理解的各种自然语言增强的表达，目的是方便大模型理解这个标准，从而可以自动化处理和转换，以方便医院间数据的共享。

　　所谓灵活性，即借助于大模型对自然语言的理解，标准的定义方式可以更为灵活，比如说，可以有判断和条件语句，可以根据不同疾病，选择合适的条目等等。

　　所谓可扩充，即上层标准制定一个框架和基本条目，不同的区域与疾病可以方便的扩充这个标准，基于大模型的处理引擎，不需要额外的程序和训练，即可处理这个扩充规范。

　　2.一个支持病情与决策逻辑的语义描述，进而隐含日常医疗质控要求的电子病历互联互通规范。

　　在电子病历结构上的互联互通，只是互通的初步。而基于电子病历，促进不同专家对病情和治疗方案形成探讨和共识，才是互联互通的最终目的。而传统的规范文档，只是从结构上进行了限制，并未进一步对内容和表达进行引导。

　　所谓隐含电子病历语义，指的是互联互通规范不仅是规范有哪些条目，而且是规范了条目应该包含哪些内容，这些内容之间的逻辑关系是怎样的，比如说，主诉和家族史应该写些什么，而不仅仅是必须要有“主诉”这个字段。再比如说，每日病程记录，从原则上应该记录哪些内容，而不仅仅是流水账式的复制。

　　电子病历记录的内容，一方面记录患者病情的变化，一方面可以更为清晰记录医生的诊疗思路和过程，辅助以语义内涵质控，可以提升病历的书写。

　　下文从两个方面细化上述观点。

　　一传统基于CDA标准的电子病历互联互通协议的要点

　　电子病历标准化对于提高医疗数据利用率和服务质量至关重要。目前这一过程主要依据国际通用的CDA临床数据架构规范。临床数据结构(CDA)规范，以XML格式定义了电子病历中的众多文档、章节以及条目内容，并通过术语代码表达了结构化字段的语义含义。这种表达方式有下列缺点：

　　1.XML冗余度高，可读性较差；

　　2.术语代码表达了结构化字段的语义含义，但大多数人不能很好的了解术语编码体系，因此，编码成为一项令人厌烦的工作；

　　3.缺乏对条目中文本字段内涵和外延的定义与限制。这个在电子病历数据元规范或者电子病历书写规范里面可能有。但是，这些规范的表达方式是比较随意的，没有统一的格式，不一定被大模型所理解；

　　4.CDA规范中文本条目的粒度仍较粗；

　　5.CDA没有表达出文本间的语义关联。

　　二新一代电子病历互联互通规范的要点

　　值得庆幸的是，随着大模型在自然语言理解方面能力的显著提升，可以利用文本或示例来描述文本的内涵和外延，以方便机器理解，这也是人类理解语义的常用方法之一。基于技术的趋势，本文认为新一代电子病历规范应该具有下列特点：

　　1.基于JSON。JSON对比XML的方便之处不再详述；

　　2.提供一种大模型使人机同时理解的提示语言，暂时称为L4CS( Language for Clinical Standard)，该语言有如下特征：基于自然语言；具有一定的结构特征和特殊表达，如数据元、数据元描述、判断语句、关联语句、正例、负例等等。

　　例如，如果患者是乳腺癌手术，则需要做病理检查，病历应该有专门的“病理检查”条目，在“出院小结”条目中，如果病理报告未出，则需要告知患者。

　　基于上述表达，大模型可以对电子病历的质量进行语义控制。

　　1.基于L4CS语言，定义电子病历的所有条目，应根据情况增加子条目以及条目之间的关系；

　　2.保留术语编码，但同时使用L4CS描述疾病、症状等术语，在标准统一的同时，可以更好的描述疾病。另外，区域层面提供编码工具，使编码方法统一；

　　3.允许专科基于l4CS语言定义专科规范。

　　总而言之，大模型给电子病历的互联互通带来了便利，不仅是在数据元名称层面，还在以自然语言描述的病情和治疗方法层面，实现语义级别的互联互通。

　　作者简介

　　阮彤，CHIMA委员，华东理工大学信息科学与工程学院计算机系，博导，教授。现任华东理工大学计算机技术研究所所长，自然语言处理与大数据挖掘实验室主任。长期从事自然语言处理、知识图谱、医学人工智能等方面的研究。

　　CHIMA 2024大会邀请

　　中国医院信息网络大会(CHIMA 2024)将于5月16-19日在南京国际展览中心召开，以新质生产力理论为指导，以深化应用，融合创新，用信息技术赋能医院高质量发展为主题，邀请国家卫生健康委相关司局领导、两院院士、国内外医疗卫生信息化领域知名专家学者、领军人物做主旨报告。本次大会聚焦医疗信息化的技术及应用领域的核心问题，将设立信息标准与互联互通、信息中心管理与实践、医院基础设施建设等拓导课与分论坛。会议同期还将举办中外医疗信息网络技术和产品展览会，集中展示国内外知名IT厂商最新技术和最新产品。大会大咖云集，内容丰富多彩，欢迎各医院和企业代表参与。