阮彤:大模型给电子病历互联互通带来的变革 — 从结构互通到语义互通

发布时间:2024-04-24
浏览次数:

  “互联互通”标准的目的是面向机器,而不是面向人的。人可以理解所有医院的电子病历,但是在大模型出现之前,机器不能够理解自然语言,需要一个标准方法来描述电子病历,方便电子病历在不同医院之间流转。因此,电子病历的互联互通,本质指的是A医院一台机器,可以同时处理B医院的电子病历。

  大模型的出现使机器在理解自然语言的基础上,延伸到对医学语言和电子病历的理解。如果机器能够理解电子病历,电子病历就可以直接在不同系统中进行自动化处理,理论上是不需要互联互通标准的。例如,如果大模型可以将A医院的电子病历的形式,自动转换成B医院的格式,制定一个中间标准还有什么必要呢?

  我们的假设和推理过程是这样的:

  1.一个足够好的大模型是能够理解自然语言的;

  2.而电子病历可以看作是一种带有特殊格式的、具有特定词汇的自然语言。因此,大模型未来能够理解电子病历是必然的;

  3.理解电子病历,意味着大模型可以自动在多家医院的电子病历格式之间做转换;

  4.互联互通标准的意义在于可以机器处理多家医院的病历,所以既然可以自动转换,就不用互联互通标准了。

  事实上是,上面的几个假设在目前阶段并不完全成立,主要在于:

  1.大模型对电子病历理解还不够充分;

  2.转换过程不是无损的,可能会出问题;

  3.互联互通标准定义了一种事实上的电子病历“书写标准”,表达了电子病历应该包含的字段,以及字段之间的关系,隐含了一定的质控要求。

  因此,我们需要一个面向未来、更为智能化的互联互通标准,这个标准主要有两个特点:

  1.一个面向大模型、更为灵活、可扩充的互联互通规范。

  所谓面向大模型,就是在撰写标准的时候,提供大模型容易理解的各种自然语言增强的表达,目的是方便大模型理解这个标准,从而可以自动化处理和转换,以方便医院间数据的共享。

  所谓灵活性,即借助于大模型对自然语言的理解,标准的定义方式可以更为灵活,比如说,可以有判断和条件语句,可以根据不同疾病,选择合适的条目等等。

  所谓可扩充,即上层标准制定一个框架和基本条目,不同的区域与疾病可以方便的扩充这个标准,基于大模型的处理引擎,不需要额外的程序和训练,即可处理这个扩充规范。

  2.一个支持病情与决策逻辑的语义描述,进而隐含日常医疗质控要求的电子病历互联互通规范。

  在电子病历结构上的互联互通,只是互通的初步。而基于电子病历,促进不同专家对病情和治疗方案形成探讨和共识,才是互联互通的最终目的。而传统的规范文档,只是从结构上进行了限制,并未进一步对内容和表达进行引导。

  所谓隐含电子病历语义,指的是互联互通规范不仅是规范有哪些条目,而且是规范了条目应该包含哪些内容,这些内容之间的逻辑关系是怎样的,比如说,主诉和家族史应该写些什么,而不仅仅是必须要有“主诉”这个字段。再比如说,每日病程记录,从原则上应该记录哪些内容,而不仅仅是流水账式的复制。

  电子病历记录的内容,一方面记录患者病情的变化,一方面可以更为清晰记录医生的诊疗思路和过程,辅助以语义内涵质控,可以提升病历的书写。

  下文从两个方面细化上述观点。

  一 传统基于CDA标准的电子病历互联互通协议的要点

  电子病历标准化对于提高医疗数据利用率和服务质量至关重要。目前这一过程主要依据国际通用的CDA临床数据架构规范。临床数据结构(CDA)规范,以XML格式定义了电子病历中的众多文档、章节以及条目内容,并通过术语代码表达了结构化字段的语义含义。这种表达方式有下列缺点:

  1.XML冗余度高,可读性较差;

  2.术语代码表达了结构化字段的语义含义,但大多数人不能很好的了解术语编码体系,因此,编码成为一项令人厌烦的工作;

  3.缺乏对条目中文本字段内涵和外延的定义与限制。这个在电子病历数据元规范或者电子病历书写规范里面可能有。但是,这些规范的表达方式是比较随意的,没有统一的格式,不一定被大模型所理解;

  4.CDA规范中文本条目的粒度仍较粗;

  5.CDA没有表达出文本间的语义关联。

  二 新一代电子病历互联互通规范的要点

  值得庆幸的是,随着大模型在自然语言理解方面能力的显著提升,可以利用文本或示例来描述文本的内涵和外延,以方便机器理解,这也是人类理解语义的常用方法之一。基于技术的趋势,本文认为新一代电子病历规范应该具有下列特点:

  1.基于JSON。JSON对比XML的方便之处不再详述;

  2.提供一种大模型使人机同时理解的提示语言,暂时称为L4CS( Language for Clinical Standard),该语言有如下特征:基于自然语言;具有一定的结构特征和特殊表达,如数据元、数据元描述、判断语句、关联语句、正例、负例等等。

  例如,如果患者是乳腺癌手术,则需要做病理检查,病历应该有专门的“病理检查”条目,在“出院小结”条目中,如果病理报告未出,则需要告知患者。

  基于上述表达,大模型可以对电子病历的质量进行语义控制。

  1.基于L4CS语言,定义电子病历的所有条目,应根据情况增加子条目以及条目之间的关系;

  2.保留术语编码,但同时使用L4CS描述疾病、症状等术语,在标准统一的同时,可以更好的描述疾病。另外,区域层面提供编码工具,使编码方法统一;

  3.允许专科基于l4CS语言定义专科规范。

  总而言之,大模型给电子病历的互联互通带来了便利,不仅是在数据元名称层面,还在以自然语言描述的病情和治疗方法层面,实现语义级别的互联互通。

  作者简介

  阮彤,CHIMA委员,华东理工大学信息科学与工程学院计算机系,博导,教授。现任华东理工大学计算机技术研究所所长,自然语言处理与大数据挖掘实验室主任。长期从事自然语言处理、知识图谱、医学人工智能等方面的研究。

  CHIMA 2024大会邀请

  中国医院信息网络大会(CHIMA 2024)将于5月16-19日在南京国际展览中心召开,以新质生产力理论为指导,以深化应用,融合创新,用信息技术赋能医院高质量发展为主题,邀请国家卫生健康委相关司局领导、两院院士、国内外医疗卫生信息化领域知名专家学者、领军人物做主旨报告。本次大会聚焦医疗信息化的技术及应用领域的核心问题,将设立信息标准与互联互通、信息中心管理与实践、医院基础设施建设等拓导课与分论坛。会议同期还将举办中外医疗信息网络技术和产品展览会,集中展示国内外知名IT厂商最新技术和最新产品。大会大咖云集,内容丰富多彩,欢迎各医院和企业代表参与。

  相关链接:

  相关链接:

  1.中国医院信息网络大会会议通知

  2.CHIMA 2024各地团体报名海报合辑(一)

  3.CHIMA 2024各地团体报名海报合辑(二)

  4.“CHIMA 2024中国健康医疗信息化图书展”参展通知

  5.CHIMA 2024青年壁报大赛活动

  6.CHIMA 2024第三届HIT青年辩论赛

  7.“青年之家光影展”内容征集

  8.第五届全国卫生健康行业网络安全技能大赛

  点击此处可了解大会更多信息