企业主患者索引解析：理论、产品和实践（上）

作者：叶常青发布时间：2020-05-06

叶常青先生撰写的《企业主患者索引解析：理论、产品和实践》比较系统的分析了“企业主患者索引”的发展历程，实施方法和发展趋势，对于医院、医联体、区域电子病历共享建设工作具有一定的参考价值。此文内容丰富，表述详尽，将分上下两篇发布。上篇包括：发展历史、核心模块，核心算法，实施方式；下篇包括：生命周期，主要厂商、创新发展和综述等内容。

企业主患者索引（EnterpriseMaster Patient Index，简称EMPI）或主患者索引（MasterPatientIndex，简称MPI）已经成为医院信息系统及大数据系统平台中不可缺的基础技术和模块，也是医疗企业集成化（Integratingthe Healthcare Enterprise，简称IHE）和医疗信息交换（HealthcareInformationExchange，简称HIE）平台的基础支撑技术和模块。

EMPI和MPI同义，因为MPI只有在整个企业或医疗机构范围内使用时才有意义和价值。企业主病患索引是维护医疗机构中的一致准确患者信息的数据库。准确的患者信息被各医疗信息系统参考和访问，企业主病患索引给每个患者分配一个唯一的标识符，因此患者记录在医疗机构的所有系统中只代表一次。患者数据可以包括姓名、性别、出生日期、身份标识号、当前地址、联系电话等信息。

每个患者在企业主病患索引数据库中只存储唯一条最真实最可靠最全面的患者信息记录，称为单一最佳记录（SingleBest Record,简称SBR），单一最佳记录也称金质记录（GoldenRecord）。企业主病患索引目的是构建单一真实主患者信息源(ASingle Patient Source of Truth, 泛称ASingle Source of Truth,简称SSOT)。SSOT将企业内多个系统的主患者数据聚合到一起，综合产生单一最佳记录（SBR），SSOT是一个企业范围内主患者数据的整体状态。企业主病患索引确保患者数据在医疗机构中的正确和一致。

企业主患者索引（EMPI）是通用主数据管理（MasterData Management，简称MDM）在主患者数据的特定场景的应用。所以，更精确地说企业主患者索引技术是主数据管理技术。通用主数据管理MDM产品通过客户化配置可以构建企业主患者索引EMPI应用，但一些专用的企业主患者索引产品不能用于通用主数据管理，主要是因为患者主数据和通用主数据在数据结构和特性的差异。

企业主患者索引之所以重要和需求是因为在企业或医疗机构范围内各个信息系统表述患者数据不一致，也缺乏全局唯一的标识符（GlobalPatient Identifier 或NationalPatientIdentifier），即使单一系统由于历史原因和患者注册过程中的错误导致同一患者存有多份重复记录，患者并非总是能提供准确的个人信息如患者标识符、患者的地址等。随着系统生成更多的数据，问题会变得更加严重，从而导致不同数据源、不同供应商系统、不同机构的健康信息交换和互操作性出现重大障碍。不精确的患者数据和重复的患者数据会可能会给患者带来潜在风险，并损害护理和治疗的质量。准确的患者数据对于医疗机构提供患者最佳的护理和治疗至关重要。

我们以理论、产品及实践的视角概述企业主患者索引的起源、算法、市场及创新的各方面，希望能够给读者关于企业主患者索引有个较全面的认识。

发展历史

与企业主患者索引核心技术相关的是患者记录匹配（PatientMatching，简称PM)，泛称记录匹配（Record/DataMatching，简称RM）。与记录匹配相关的技术包括重复记录删除（Record/DataDeduplication，简称RD），记录链接(RecordLinkage，简称RL)及实体和身份解析(Entityand Identity Resolution，简称IR)。重复记录删除（RecordDeduplication）是一种用于消除重复记录副本的技术，用于提高数据存储效率；记录链接（RecordLinkage）是从不同数据源中查找表达同一实体的数据记录的技术。当同一实体在不同数据源中没有共享公共标识符或着共享公共标识符不可靠的应用环境下，记录链接是必要的；实体和身份解析(Entityand IdentityResolution)是在不同的数据集和数据库中进行搜索和分析，以找到所有匹配的即表达同一实体和身份的记录。实体和身份解析使企业能够基于其可用的数据记录和属性来分析特定实体和身份相关的数据。RD、RL和IR的应用侧重不同，核心都是基于数据匹配或泛称记录链接（RecordLinkage）。

最早关于记录链接（RL）的研究是哈尔伯特L.邓恩（HalbertL.Dunn）于1946年发表在《美国公共卫生杂志》（AmericanJournal of Public Health）上题为《记录关联》【¹】（RecordLinkage）的论文中。霍华德·波登·纽科姆（HowardBorden Newcombe）于1959年发表在《科学》（Science）上的《自动链接重要健康记录》【²】(AutomaticLinkage of Vital Records)的论文奠定了现代记录链接理论的概率基础。然后，在1969年IvanFellegi和AlanSunter正式提出并证明了当属性条件比较独立时，概率决策规则最优。他们的开创和历史性著作《记录链接理论》【³】（ATheory for RecordLinkage）至今仍然是记录链接应用的数学基础。几乎所有MDM和EMPI产品厂商都采用了Fellegi-Sunter（FS）概率算法模型实现概率记录匹配如Oracle、IBM、Informatics等等，只是各厂商模型的软件架构和实现的优化和效率程度不同，其中IBM和Oracle（SunMicrosystems）比较优化，匹配的精确度和效率比较高。如IBM和Oracle的企业主患者索引在数亿条主患者记录的场景下，匹配精确度大与95%以上，实时匹配速度在微秒级。

约翰R.塔尔伯特（JohnR. Talburt）于2010发表了《实体分辨率与信息质量》【⁸】（EntityResolution and InformationQuality）一书，约翰R.塔尔伯特引入了记录链接的抽象和集合表达，是近年来关于记录链接的比较全面的理论和方法的阐述。

记录链接可以在没有计算机帮助的情况下完成，但在大量数据的场景中如数百万、数千万、几亿万条记录，人工审核（ManualReview）成为不可能。计算机记录链接的自动方法减少或消除了人工审核，匹配结果更具一致性、速度和和效率更高。计算机记录链接的自动方法并不能终是解决所有场景的100%的问题，只要确保匹配结果没有假阴性（FalseNegative），少量的假阳性（FalsePositive）或不确定性，如在大量数据集合，中自动方法解决95-99%以上问题，余下的1-5%问题人工审核，就会大量地减低运营成本、提高效率。这也是企业主患者索引软件产品的设计原则之一。

在工业界，九十年代末较早研发企业主患者索引软件产品的是SeeBeyondTechnology和IBM。IBM的产品称IBMInitiate后更名为InfoSphere。SeeBeyond的产品称eIndex，SeeBeyond于2005被SunMicrosystems收购，后更名为SUNMDM，Oracle又更其名为OHMPI。在企业主患者索引创新的初期到高峰期，SunMicrosystems和IBM一直是技术和市场的领导者，SunMicrosystems也是较早开放企业主患者索引程序代码的厂商之一，其开源的MuralMDM 主数据管理产品代码托管在java.net上（甲骨文已经终止了java.net，而改用Apache）。

如今，有大量至少30家以上主要的企业主患者索引产品厂商，企业主患者索引已经广泛用于医疗信息系统中，产品和技术基本成熟。用户可以根据不同的需要和场景及项目预算，选择合适的产品。

核心模块

各个厂商企业主患者索引（EMPI）产品组成的模块不同，但主要的企业主患者索引产品基本包括：

设计模块：用于设计和生成特定的企业主患者索引应用程序，根据不同用户和场景客户化和配置不同的解决方案。
运行模块：运行设计模块生成的企业主患者索引应用程序，执行企业主患者索引各种功能模块。

参考如下设计模块和运行模块列子：

图一.甲骨文企业主患者索引OHMPI的设计和运行模块（参考甲骨文企业主患者索引资料）

企业主患者索引功能模块主要包括：数据库模式模块（DatabaseSchema）、数据标准化/归一化引擎（Standardization/NormalizationEngine）或称数据质量引擎（DataQuality Engine）、块搜索引擎（BlockingQuery Service）、匹配引擎（MatchEngine）、配置引擎（ConfigurationService），单一最佳记录生成策略服务（SurvivorStrategy Service）、安全服务（SecurityService）、数据验证服务（ValidationService）、应用程序接口API、事件通知(EventNotification) , 初始批量匹配和加载(InitialBulk Match and Load)及数据管理（DataStewardship）。用户可以根据这些功能评估和选择适合的自己应用场景的企业主患者索引产品。

图二.企业主患者索引功能模块

核心算法

企业主患者索引（EMPI）核心算法是记录匹配，记录匹配方法主要包括确定性匹配（DeterministicMatching）和概率匹配（ProbabilisticMatching）。概率匹配可以有效解决大部分应用场景，适合确定性匹配的应用场景并不多见。企业主患者索引软件厂商一般提供这两种方法以适应不同的应用场景。模糊匹配（FuzzyMatching）也是学术界研究的方法，但未见工业界广泛接受。

确定性匹配（DeterministicMatching）

确定性匹配使用一系列规则，如嵌套式if语句，对数据集执行一系列逻辑测试。这就是我们如何确定数据集中的相互关系（relationships）、层次结构（hierarchies）和从属控制（householding）。确定性匹配给出明确的是或否结果。在确定性匹配中，要么比较每条记录的唯一标识符以确定匹配，要么精确比较每条记录字段。唯一标识符可以是通用的患者标识符等。确定性匹配通常不完全可靠，因为在某些情况下，没有一个字段可以在两个记录之间提供可靠的匹配。这就引入了概率匹配或模糊匹配。

确定性匹配实列：

如果两条记录患者姓相同赋权值8，反之赋权值-8；如果两条记录患者名相同赋权值10，反之赋权值-10。这样，如果两条记录患者姓和名相同赋权值18，姓名相同；反之赋权值小于18，姓名不相同.这是确定性匹配实现方式之一，各厂商提供不同的确定性匹配规则语言。

概率匹配（ProbabilisticMatching）

概率匹配计算两个记录相同的统计可能性。通过对两个记录的“匹配度”进行评级，概率方法能够发现数据之间不明显的相关性。概率匹配评估“可能”的可信度。在概率匹配中，比较两个记录之间的多个字段值，计算两个记录之间的两个字段值的匹配程度的权重。各个字段的权重之和是匹配值（MatchScore），表示两条记录之间匹配的可能性。概率匹配设置重复阈值（DuplicateThreshold，也称低阈值LowThreshold）和匹配阈值（MatchThreshold，也称高阈值HighThreshold）。重复阈值是两条记录可能代表同一实体的权重。匹配阈值是两条记录被认为代表同一实体的权重，低于重复阈值的任何记录都被视为代表完全独立和不同的实体。在图三.FS概率匹配模型中，如两条记录的匹配值大于匹配阈值，两条记录为同一患者记录；如两条记录的匹配值小于重复阈值，两条记录为不同患者记录；如两条记录的匹配值介于重复阈值和匹配阈值之间，不确定，需要人工审核。同过调正参数，减小重复阈值和匹配阈值之间的区间以减低人工审核。

图三.FS概率匹配模型（参考甲骨文企业主患者索引资料）

Fellegi和Sunter【³】建立了用于记录匹配的正式数学框架，是一种最广泛接受的概率匹配方法，如今已称为标准FS模型。FS模型对涉及匹配的每个字段计算它们的条件概率，然后，汇总所有各个字段在统计上相互独立条件下的概率近似值。

一些研究显示在实践中经常违反FS算法的条件独立性的假设，已公开的基于条件概率的显式建模的努力并未导致匹配精度的提高。如果有足够的带标识的训练数据可用，则有助于提高算法的精度。

设置重复阈值和匹配阈值

概率匹配的最大痛点是权重、重复阈值和匹配阈值的确定。有不同的技术可以确定匹配和重复阈值的初始设置。常用的实践方法有：权重分配方法（WeightDistribution Method）和百分比方法（PercentageMethod）。权重分配方法基于通过分析所有记录比较的加权对（WeightedRecord Pairs）的分布频谱来计算错误匹配（FalseMatches）和错误不匹配（FalseNon-Matches）的错误率。权重分配方法更有效，但需要分析大量数据才能在统计上可靠。在学习记录有限的情况下，此方法不太适用。百分比方法依赖于测量所有匹配字段的总的最大权重和最小权重，然后将这些值的一定百分比指定为初始阈值。百分比法简单，但缺少统计学的基础。

设置正确的阈值是一个反复的迭代过程。首先，使用前面描述方法设置初始阈值，然后分析所得的所有记录匹配的结果，调整阈值提高精度。重复加载和分析数据以及调整阈值，直到对结果满意为止。比较将有力的企业主患者索引厂商如Oracle和IBM都提供设置阈值的工具以帮助用户根据自己的数据有效确定阈值。比如BMInitiate提供MatchedPairs Reviewer 工具，OracleOHMPI 有IBML工具。

EM算法【⁷】是比较有参考价值的统计学方法通过学习数据自动给出权重和阈值，但大部分厂商都不提供这工具。

比较函数（ComparisonFunctions）

用于匹配字段的比较函数（或比较器Comparator）比较两条记录中字段的值，以确定字段是否匹配或匹配的程度。然后，根据比较函数的结果为字段分配匹配权重（MatchWeight）。根据字段的特性，可先择不同类型的比较函数，进一步调整比较函数的参数。

基本的比较函数包括:

Bigram Comparators
Jaro String Comparators
Unicode String Comparators
Numeric Comparators
Date Comparators
Prorated Comparators
……

我们还引入了中文字符的比较函数：

Chinese String Comparator
Chinese String Prefix Comparator
Chinese Integer Comparator
……

很多企业主患者索引软件厂商还容许创建自定义比较函数，嵌入到系统中。这些企业主患者索引产品遵循可插入式的开放体系架构(PluggableOpen Architecture).

块查询(BlockingQuery or Bucketing)

从大量的企业主患者索引数据库中迅速检索到可能匹配的记录子集的过程块查询技术,匹配引擎进一步计算可能匹配的记录子集。如果企业范围内各系统内每个患者都强制使用了全局性的唯一标识符，检索简单而快速；但如果企业范围内各系统内每个患者没有全局性的唯一标识符或者唯一标识符不可靠，查询技术将对匹配速度起到决定性的作用。

各厂商迅速检索的方法不同，但基本有以Oracle为主的块查询（BlockingQuery）技术和IBM为主的桶装技术（Bucketing）。

语音编码（PhoneticCoding）

语音编码或称音素化技术（Phonetization）是将同一种语言中拼写不同但具有相同的发音字或词组编成统一码。语音编码的重要应用是模糊数据检索,用于从大量数据集合中快速检索出具有相似字段值的记录以进行精确匹配。基本的语音编码包括:

Soundex
Refined Soundex
Metaphone
Double Metaphone
NYSIIS
……

我们引入了中文语音编码包括:

HanYuPinYin
HanYuPinYinNoTone
……

单一最佳记录（SBR）规则（SurvivorStrategy）

单一最佳记录（SBR）规则用于生成并更新单一最佳记录SBR。企业患者的单一最佳记录（SBR）是根据每个源系统记录中包含患者的最可靠信息创建的。每个源系统用于填充SBR的信息由单一最佳记录（SBR）规则确定,有各种不同的规则，单一最佳记录（SBR）规则高度可配置。单一最佳记录（SBR）可以动态产生，如IBMInitiate的主数据库中并不存储单一最佳记录，在用户查询时根据规则自动产生；而OracleOHMPI 主数据库中存储单一最佳记录。两种方法各有利弊。动态产生单一最佳记录适合更多的应用场景，但损失检索效率。

记录链接的方法（RecordLinkage Method）

记录匹配的目的是通过计算两条或更多记录的像似性以确定是否表达同一实体（Entity）。在企业主患者索引场景中，实体就是患者。这些像似性的记录链接在一起，理论上有四种记录链接方法，并不是所有的产品很好地实现了这些方法。四种记录链接方法是：直接匹配（DirectMatching）、传递连接（TransitiveLinking）、关联链接（Linkingby Association）和认知基础链接（Knowledge-Based/AssertedLinking）。关于详细的记录链接方法可阅读参考文献【⁸】。

其它算法

其它算法包括数据清洗、数据标准化、和数据归一化，这些算法和规则是企业主患者索引不可缺的，以确保患者记录匹配的准确性和高效率。

实施方式（Implementation Styles）

企业主患者索引（EMPI）根据应用场景，可以归纳分为如下主要三类实施方式（ImplementationStyles）。

注册方式（Registry Style）

注册方式对来自各种源系统的数据运行清洗和匹配运算、寻找表达同一的患者数据记录，为匹配的患者数据记录分配唯一的全局标识符（也称EnterpriseUnique Identifier,简称EUID），以构建单一真实主患者信息源（SSOT）。单一最佳记录（SBR）可以静态或动态产生。静态产生的单一最佳记录存储在企业主患者索引数据库中。源数据不存储在企业主患者索引数据库中，主数据的改变不发送回源系统，源系统负责管理和源数据。注册方式更接近检索方式（Indexing），只有用于匹配和产生全局标识符的患者数据保存在数据库中，数据的安全性和脱敏易于实现和管理。

当应用场景有大量数据源，注册方式提供了低成本和快速的数据集成。当源数据改变时，企业主患者索引系统面对维护一致性的困难。

交易方式（Transaction Style）

交易方式也称中心化方式（CentralizedStyle）存储和维护主数据，通过各数据源的数据清洗、匹配和丰富算法构建单一最佳记录（SBR）。源系统的数据可以存储和维护在企业主患者索引数据中，源系统可以订阅由企业主患者索引主系统发布的更新消息，以确保源系统与主系统数据的一致性。交易方式需要侵入源系统以进行双向交互。

交易方式主数据始终确保数据的准确且完整，交易方式是主数据中心（MasterData Hub），构建成本高于注册方式。

业界也有定义合并方式（ConsolidatedStyle），合并方式和交易方式从实践上可归为一类。

共存方式（Coexistence Style）

共存方式在解决方案中同时运用注册方式和交易方式。共存方式对架构和实施及维护有更高的要求。

企业主患者索引产品支持其中的一种实施方式或这些三种实施方式。

作者简介

叶常青

快阳科技（苏州）有限公司首席技术官

前美国甲骨文ORACLE全球医学科学事业部资深主任架构师

前美国健康信息交互（HIE）创新公司SANDLOTSOLUTIONS系统兼软件架构师

前美国医疗健康主数据开源产品iOpenMPDM作者

未完待续

CHIMA大讲堂直播与回放：

https://djt.chima.org.cn

全国卫生健康行业网络安全技能大赛：

https://chcsc.chima.org.cn

上一篇：企业主患者索引解析：理论、产品和实践（下）

下一篇：大讲堂第六期：院长们畅谈他们心目中的信息化建设