北京友谊医院:OCR文字识别助力放射防护精细化管理
CHIMA 2020医院新兴技术创新应用优秀案例征集自启动以来,获得了业内各方的积极响应。CHIMA将陆续刊登参评案例,展示医疗信息技术科技创新应用成果。案例征集截止日期为11月5日,欢迎大家踊跃投稿。
2019年6月,根据北京市卫生健康委关于印发《2019年北京市放射卫生监测项目工作方案的工作》的通知:推进2019年职业病防治项目,切实做好北京市职业性放射性疾病监测、医疗卫生机构医用辐射防护监测、非医疗机构放射性危害因素监测等3项监测工作,各区需要在辖区范围内选择部分医疗机构作为试点开展监测工作,并逐渐将范围覆盖全市各区、各级医疗卫生机构。
北京友谊医院作为其中一家监测试点医疗机构,需填报“北京市放射卫生监测数据库”,上传所有放射工作人员的职业健康检查结果、个人剂量监测数据、持证在岗培训情况,与各放射诊疗设备检测数据。但放射人员数据复杂、设备种类繁多,如果依赖手工统计整理,工作量庞大,需要通过建设信息化系统实现放射相关数据的统一管理与业务流程规范化,在此背景下,我院建设了放射防护管理系统。
放射工作人员的体检情况与操作培训是否合格、每台设备仪器的定期检测结果是否正常,一直是医院放射防护管理中的重点工作,需要及时掌握情况并做出正确措施以保证放射防护工作的正常开展,但之前由于没有信息化系统支撑,存在以下管理痛点:
(1)对于每年度或者季度的人员体检报告、剂量笔检测报告、设备检测报告,各个检测服务商基本以PDF电子扫描版或者纸质版提供,医院管理人员无法直接用于线上管理,只能通过手工方式在excel表中一一录入,效率低下,而且难免错漏。
(2)当出现体检结果或者设备检测结果有问题的报告,管理人员只能通过线下单一沟通方式,进行科室之间联系通知,沟通成本大,而且对后续的复查进度与效果难以把控,管理工作质量无法保证。
(3)管理部门与各放射诊疗科室之间,关于放射防护管理工作的信息无法及时共享,经常出现信息不对等情况而影响工作成果与效率。
我院通过梳理放射防护管理工作中遇到的实际问题,于2019年7月,从需求调研阶段开始建设放射防护管理系统,对各放射诊疗相关人员及设备的基本信息进行统一线上管理,并通过OCR文字识别技术(简称OCR)自动采集人员体检报告或设备检测报告结果数据,同时支持管理工作中所需要的多种维度的数据分析、统计与导出。
(1)系统架构
放射防护管理系统采用分层的系统架构,从下至上分为数据接入层、聚合层、服务层和应用层,层与层之间只需通过标准接口就可实现交互,满足高内聚,低耦合特点,便于后期版本迭代,功能拓展。
系统架构示意图如下:
图1 放射防护管理系统架构图
数据接入层:
系统数据接入方式包括三类:企业服务总线、ETL及API。企业服务总线是实时地从信息平台订阅生产数据,根据条件规则,将满足条件的数据存储到系统数据库;ETL方式是按照系统同步转换规则,定时从其他业务系统获取数据并进行存储;API集成方式通过API接口实时获取其他系统的业务数据。
聚合层:
采用关系型数据库,将不同数据接入方式的业务数据,按照数据模型集中存储到本地数据库中,提高数据的访问效率,同时存储随访系统用到的标准化字典及知识库数据。
服务层:
主要提供文件管理服务、OCR识别服务、统计分析服务、消息提醒服务及统一通讯服务。围绕着上层的应用,服务层完成系统的核心业务功能,为表现层提供基于业务的操作管理功能,主要实现报告导入,文字识别,数据的统计分析、消息提醒等功能。
表现层:
提供B/S架构的展现界面,为系统使用者提供丰富灵活、友好的人机界面,同时要确保信息展示的完整性、准确性、时效性。主要功能包括:人员管理、设备管理、监督管理、证件管理、消息提醒等。
(2)关键技术一:OCR技术
计算机文字识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。
放射防护管理系统利用OCR技术,将纸质扫描版的放射人员年度或季度体检报告、各个检测服务厂商提供的设备检测报告进行识别读取转换存储到系统数据库中去。
图2 OCR技术识别提取
目前系统中涉及到三大类报告分别为:人员体检报告、人员剂量笔报告、设备检测报告;需要从人员体检报告中识别获取:人员身份信息,体检结果及结论,体检日期等有效信息;人员剂量笔检测报告需要获取:剂量统计时间、个人剂量值等有效信息;设备检测报告需要获取:设备编号,设备厂商,检测日期,检测结果,设备使用地等有效信息。
通过将上述有效关键信息项识别提取之后,准确填充到系统对应数据库中用于数据分析管理。
图3 相关报告
最初直接使用OCR技术时,由于上述相关报告来自于多家检测服务商,报告格式各不相同,内容形式也不统一,同时由于扫描纸质版报告过程中会存在一系列的操作问题出现:清晰度不够、公章水印覆盖、标题顺序差异、部分报告缺失关键首页等各种现象,导致在进行识别时准确率不足50%,有的报告甚至不足20%。
为了解决此问题,提高OCR识别准确率,信息技术人员经过不断地试验训练,对识别的图像进行预处理:包括图像裁剪、矢量偏移、灰度化、降噪处理等技术提高关键信息的识别度、并通过特征提取、系统容错处理等手段对采集到的信息进行校验修正,从而提高文字识别率和准确率,经统计,目前为止,识别数总共4361项,准确率为92%以上。对于识别不准的项目,系统会给出原因提示,告知用户由于图像质量问题导致识别不到扫描项,提醒用户需要进行修改编辑;另外对于识别到的关键项信息,系统也做了标识处理,达到快速定位的目的,方便使用人员快速定位及进一步核查。
图4 图像处理技术
(3)关键技术二:利用统一的通讯服务平台进行消息推送
利用统一的通讯服务平台,不同的消息类型采用不同的消息模板通过分支选择推送到相应角色的人员。
图5 消息推送提醒
(1)实现放射人员与设备的一体化管理
建立统一的放射人员及设备信息管理平台,将医院各科室种类繁多的相关电子报告导入到系统中,并对各管理版本的报告进行处理存储到数据库中,提供查看、核对;并对体检不合格人员进行预警通知,支持数据导出等操作功能,并通过权限管理设定,实现多科室全方位一体化管理。
本年度已经通过信息化管理所有放射相关人员与各类放射诊疗设备,大幅度提升管理效率。
图6 年度管理报告数
(2)通过高识别准确率的OCR技术摆脱低效手工作业
借助OCR技术,将放射防护管理人员由之前的查阅人员体检报告、剂量值检测报告后人工录入到Excel中的繁琐工作中解脱出来,现在只需要短短的几分钟便可将之前可能需要花费数天的统计内容清晰明了地展示在系统中,供管理人员查看导出等操作,使数据采集更加高效便捷,节省了人工操作时间,同时也大大提高正确率。
根据分析统计,设备检测报告平均识别准确率为95.2%,剂量笔检测报告识别准确率为96.02%,而体检报告识别准确率已经高达100%。
图7 OCR识别准确率
(3)消息推送提醒更加及时,改变线下单一沟通方式
管理人员可以直接在系统中设定体检不合格需要复查的人员或者有培训排期的人员,系统将自动推送通知消息给相应人员,并及时高效地得到信息反馈,与之前一对一的线下沟通的方式相比,节省了大量的时间,降低了沟通成本。
(4)监督整改工作实现流程闭环管理
放射防护管理人员进行监督检查后通过系统发送督办事项提醒,相关科室进行分析整改、持续改进形成完整的知识体系,实现了整个监督整改的闭环管理。
图8 消息推送提醒
基于放射防护系统的建设,实现了对放射相关人员基本信息、体检报告、培训报告、剂量笔检测报告及放射设备基本信息、检测报告、防护仪器、防护用品、质控设备的统一管理,提高效率与管理质量。实现了管理部门对于整改过程中的闭环管理。通过统一通讯服务,更加及时对相关人员进行消息提醒,提升了对相关工作的精细化管理水平。
随着医院后续进一步的管理需要,在满足数据接入的条件下,继续做好与其他业务系统的集成工作;后续相关体检机构与设备厂商能够提供电子化文档数据进行对接后,便可以进一步提高录入效率及准确率。同时在保障医疗数据安全前提下,根据业务灵活调整平台功能模块,持续优化平台功能,提高易用性及可靠性。
申报单位:
首都医科大学附属北京友谊医院
联合申报单位:
北大医疗信息技术有限公司
参选方向:
人工智能创新应用