北京协和医院：智能语音识别技术赋能超声检查模式创新

作者：北京协和医院发布时间：2020-11-27

本案例获得CHIMA 2020医院新兴技术创新应用典型案例“医学人工智能创新应用”方向二等奖。

案例概要

国务院于2017年正式印发《新一代人工智能发展规划》，随后多部委陆续颁发相关政策，包括：科技部于2019年8月正式印发《国家新一代人工智能开放创新平台建设工作指引》等，进一步明确了我国新一代人工智能发展的战略目标：预期到2030年，人工智能理论、技术与应用总体达到世界领先水平，我国成为世界主要人工智能创新中心。随着医疗信息化技术的不断完善，如何通过人工智能技术为医务工作者提供帮助，成为医疗信息化领域的重要研究方向。

近五年，北京协和医院（以下简称“我院”）陆续引人工智能技术，尤其是将语音识别技术应用到临床，包括：病房、医技科室、手术休息区等区域，在语音病例录入等方面的研究已经取得了良好效果。2018年，我院患者APP中成功实现语音模块嵌入，患者持手机即可进行语音查询医生介绍和出诊信息等功能。

基于上述成功项目的经验基础，结合语音识别技术最新发展动态，我院于2018年开始积极探讨语音识别技术在医技科室的应用。以超声医学科为例，一套完整的检查报告流程包括：患者叫号、病情问询、超声检查操作、检查内容记录、书写检查内容和报告，打印报告和签字确认等。一方面，单个患者等检查时间长、医生操作内容繁多、候诊患者等待时间长且体验差；另一方面，医生双手同时操作超声设备，造成检查操作和书写诊断过程分离，医生在叫号、检查、诊断、打印等流程切换，往返于叫号程序、超声设备、电子病历、打印机等场景，部分情况下还会采用人工助手协助，增加了工作中的人力成本。

为缓解超声科医生工作强度高、工作效率较低等问题，我院率先尝试并探索了基于语音识别技术的超声检查模式创新，实现医生通过语音操控超声系统和填写超声报告，为医生减负的同时提升超声检查效率。

服务对象及覆盖范围

（1）服务对象：医院的检查科室，如：超声科、放射科等。

（2）覆盖范围：在超声科部分诊室开展使用。

实践与探索

（1）语音操作覆盖检查全流程：通过前期调研和问题梳理，我们制定出一套适应超声检查的超声助手软件产品，实现全流程语音操控，保证超声检查医生在不需要鼠标、键盘的情况下，可以完成所有检查报告书写工作（包括：选择图像、查阅历史检查、复查患者、检查数值录入等）。

（2）硬件产品选型和定制开发：考虑到超声医学科环境较为复杂，固定式麦克风、鹅颈麦克风都难以适用此场景，所以我们需要定制开发移动麦克风的硬件进行采音。硬件产品选型过程中经三次改版，从两个维度考量：一方面是指向性麦克风，指向性是话筒对来自空间各个方向声音灵感度的一个描述，以心形指向性麦克风为例，在指向性正向语音信号不衰减，在反向和侧面语音信号急剧衰减；另一方面是麦克风近讲特性，在指定距离（如一米外）的录音时信号急剧衰减。

我院研发定制了头戴式无线麦克风，结合指向性和近讲性两个维度，在声源上实现对环境噪声的有效抑制，如图1所示。此外，在麦克风内部采用减震、加固等方法，降低了麦克风自身的震动和噪声。

图1 麦克风指向性效果图

（3）无效语音过滤等关键技术：在实际采音过程中，语音内容不仅包括医生检查报告信息，而且包括医生与患者口语交流的内容。考虑到超声医学科的场景—不同病房，在检查过程中医生与患者的交流频繁，经常出现口语化内容。因此，需要对医生口述的内容进行无效语音过滤，才能形成有效的录入和检查报告。此外，在语音识别技术与超声系统融合的过程中，还涉及多项关键技术，如图2所示，包括：超声医学科复杂医学环境下的语音抗噪音处理的技术、不同角色语音识别结果的分类技术、日常口语内容书面化技术、语音识别文本的结构化技术、语音识别内容的完整性技术、在不连续识别文本下智能标点符号标记技术和语音识别系统与超声医学科业务系统结合下产品易用性和便捷性的实现方式等。

图2 超声语音应用关键技术分解图

（4）语音应用集成方案设计：将语音识别应用到超声系统中，实现语音命令控制、语音书写等功能，系统集成方案如图3所示。语音识别系统与原超声系统是各自独立的两个应用程序，将语音识别系统的嵌入到原超声系统中，形成新的智能语音超声系统。语音识别系统提供语音指令、语音模板编辑、自由文本录入等功能，智能语音超声系统提供系统状态以方便语音识别系统内部进行识别场景的转换。

图3 语音应用集成方案

在运行过程中，语音系统与超声系统双方不断的进行状态、指令、模板和自由文本的交互和通信。双方系统的交互流程如图4所示，当超声系统调用语音系统接口时，语音系统接口会去侦测语音识别系统是否已启动，如果未启动则自动启动语音识别系统。当超声系统卸载语音系统接口时，且语音系统接口的引用计数为0时，由语音系统接口关闭语音识别系统。

图4 超声系统和语音应用之间的交互

成果分享

通过不断攻克技术难关，我院历时13个月，完成基于智能语音识别技术的超声助手应用软件开发工作和硬件定制工作。目前，实现与超声系统完美集成的超声助手，已经在我院超声医学科的门诊进行推广，实际应用场景如图5所示。经3个月的系统测试和试运行，超声科用户反馈良好。

图5 超声医学科应用场景图

为准确评估超声助手的工作效果，我院组织了50人团队，专门针对测试模板使用便捷性和使用效率问题进行分析。并在采用不同模板录入的情况下，对比超声助手和人工助手的工作时长，结果如表1所示。可见，医生借助超声助手可以实现到语音操控超声系统、语音录入超声报告，平均时长为62.6秒；使用同类模板时，操作熟练的人工助手（超声报告录入员）的工作时长为62.5秒。两者比值接近1:1，超声助手的工作效率可以媲美人工。

表1 采用不同模板事超声助手和人工助手的检查时长对比表

难点与挑战

在本案例中，重点攻克是语音信号处理难点，具体可以分为：“听不清”、“谁在说”和“说什么”的问题。语音识别技术应用于超声医学科，首先要解决的是提高声源质量，对噪声进行处理，计划从声源采集、语音识别技术的声学模型两个方面入手进行技术研究。在实际的检查诊断过程中，医生和患者会进行交流。例如医生在检查过程中说到病理指标，患者会进行询问，而医生会进行解答或者安抚。在这个过程中，医生在检查过程中口述的检查结果是有效内容；患者口述的内容是无效内容，需要分离医生和患者口述的内容。除患者口述内容外，还有医生回答患者的内容，医生引导患者的内容，虽然这些内容由医生口述，但仍属于无效内容，需要使用语义分离技术去除无效内容。

（1）攻克语音信号处理难点，优化声学模型

通过定制麦克风，医生口述方向上的语音能量和相反方向上的语音能量比达到了30db，开发人员设计开发基础能量的语音信号处理方法，过滤掉低能量的语音信号，保留高能量的语音信号，即保留医生口述方向上的语音信号。在医生工作的位置放置录音设备，录制环境噪声、设备噪声，采集了长达300个小时的声音数据，覆盖了远、中、近三个距离范围。通过对声音数据进行清洗，与原有语音数据一同进行训练，得到了优化的声学模型。

（2）挑战说话人分离技术，优化语言模型

通过对超声数据进行统计，对已有语言模型的适用性进行评估，明确了模型调整方向，进行超声专项数据收集、整理、标注和训练，构建超声医学科的专科语言模型。在保证整体医学领域识别率的前提下，提高在噪声环境下识别结果对医院个性化语音数据的倾向。

在确定录音设备方案的基础上，结合超声科的实际场景，确定采用较为成熟的基于距离的说话人分离技术方案，该方案利用两个相邻窗之间声学特征分布的距离大小来衡量它们之间的相似性，从而达到区分的目的。本案中使用贝叶斯信息准则（Bayesian Information Criterion，BIC）来进行说话人分离。

（3）挑战无效内容分离技术，提升识别准确率

在前述技术实现的基础上，可以规避大量的无效语音，少量被识别的无效语音，转化为了无效的内容。通过自然语言理解和自然语言处理的引入，结合深度神经网络（Deep Neural Networks，DNN）模型的构建，对有效和无效的内容进行区分，进一步达到分离的效果。通过梳理超声科12大类检查项目的200M正面语料数据、3G反面语料数据，清洗、标注、训练，形成了DNN分离模型。

结合声源抗噪和声学模型优化，在超声科实际工作环境中进行统计，语音识别准确率达到96%；在没有使用无效语音过滤技术时的语音识别准确率为83%。如图6所示，经过采用无效语音过滤技术，语音识别准确率提高了13%。使用分离模型对识别结果进行过滤，有效内容的正向测试集准确率达到98.9%，无效内容的反向测试集准确率达到96.0%。

图6 针对是否采用无效语音过滤技术的语音识别准确率对比图

下一步发展规划

（1）如何与现有超声系统深度集成

目前语音识别技术应用到超声医学科室，主要技术架构是在超声系统上进行的集成，医生通过语音指令，跳转到语音应用的模板编辑界面，进行检查和诊断的相关语音操作，完成之后再跳转回超声系统。后期需要将业务逻辑从语音应用中提取出来，深度集成到超声系统中，语音应用负责实现语音采集、处理，语音识别，书面化、结构化、指令化，将相应的结果提供给超声系统，由超声系统完成模板编辑，语音指令等相关的操作。

（2）如何与医生现有工作模式结合

目前语音录入和键盘录入的速度差不多，可以通过录入元素后自动跳转到下一个元素的方式增加录入效率，提高使用流畅度。后期需要针对医生和录入员组合方式，深入走访和沟通，找到在这种工作方式中的痛点，例如如何应用语音识别技术，来减少医生和录入员在沟通过程中的信息丢失和降低沟通频度。尽可能低的影响医生工作习惯的前提下，和现有工作模式流畅结合。

（3）录音方案如何进一步改进

当前的录音方案，使用的是头戴式无线麦克风。其具有指向性稳定、降噪性能突出、移动方便的特点。但是在实际使用过程中发现，部分医生会佩戴眼镜，部分医生由于工作需要会佩戴口罩和帽子，如果医生佩戴了口罩、眼镜、帽子，往往对佩戴头戴式的麦克风有一定的排斥心理。因此，需要进一步思考如何对录音方案做改进，提升舒适性、便捷性和稳定性，在造型上更加多样化，在保证抗噪性能的基础上，让医生不排斥甚至乐于使用。

总结与展望

语音超声助手的实践案例验证了语音在超声医学科辅助医生开展检查工作的可行性，让语音识别技术在超声医学科成功落地，推动了智慧医院建设在超声医学科的进程。在实际应用中，无论是全语音操控、识别率、麦克风抗噪能力、无效语音过滤能力、结构化语音录入速度等均达到了预期，达到了实际上线的标准，并有进一步优化改进的空间。语音超声助手作为一个典型的人工智能应用案例，不仅有自身的实用价值，而且其研究方法和技术积累也具有可复制性，具有较高的临床实践推广意义。

上一篇：江西省人民医院：手术室行为管理系统

下一篇：银川市第一人民医院：互联网+改善医疗服务