智慧医院产品观(六):再谈语音交互

作者:李楠 发布时间:2021-03-02
浏览次数:


我对语音交互这个方向一直有所关注,并于去年年初在CHIMA公众号发表过两篇关于语音交互的文章。随着语音技术作为基础设施日益完善,我在平时的工作和生活中,用到语音技术的机会也越来越多。


结合以上两点,谈谈我对语音技术最新的思考。




01
语音技术是不是非得跟“写病历”这件事绑在一起?


我觉得没必要。语音技术的利弊和适用场景,我在之前的文章里已经分析得很清楚了。写病历这件事,从来不是一件文体不限、鼓励创新的创作行为。相反,写病历是一种受到非常多约束条件的专业文书写作。一旦产生医疗纠纷、患者维权事件,病历资料将会是认定医疗机构是否存在医疗过失的重要证据。


有兴趣的可以看看下面这本书,这本书我看了好几遍,受益匪浅。看完之后最大的感受是:写病历,还是模板好。因为,一个好的模板,不仅帮医生框定了病历的边界、要素等大部分病历书写的核心内容,还做好了前置的标准化工作。剩下的工作,只是专业人员的“完形填空”和“小作文”。



因此,我不建议,一提到语音就往“写病历”这件事上去靠,不仅靠不住,还会无形中放大语音技术在这个领域的短板。


02
语音交互的价值和方向在哪里?


事实上,语音交互已经证明了其作为生产力工具的价值所在。在医疗领域,语音技术在超声场景中的应用和落地,有目共睹,有兴趣的可以看看协和的案例(参见:北京协和医院:智能语音识别技术赋能超声检查模式创新),这个案例在CHIMA举办的2020年医院新兴技术创新应用典型案例中,获得了“医学人工智能创新方向”二等奖。


在民用领域,语音技术也有很接地气的案例。我在《智慧医院产品观之四:语音交互篇(上)》中,开篇就提到一个很接地气的案例,即快递小哥用语音技术输入快递地址,简单方便,非常实用。


现阶段,对于语音技术,要给它机会,让它发展,但不宜让它挑大梁,更不要过分宣传,免得被捧杀。


实际上,目前绝大部分手机输入法中,“语音转文字”已经是标配,连触发模式都变得近乎一致(键盘底部居中,长按)。



受此启发,我在年初写作《下一代医院信息系统:医疗操作系统》时,便提到:语音交互技术,应该作为一种“基础设施”,成为医疗操作系统的标配,把选择和使用的权力交给用户,把成长的空间留给自己。


03
语音交互,需要用户陪跑。


人们常说,陪伴是最长情的告白。近期,我生活中发生的两件小事,让我意识到,以语音交互为代表的人工智能技术,需要用户陪跑。


一是定闹钟的事。上文中提到,语音技术是一种“基础设施”。我生活中常见的语音基础设施有:家里的某品牌智能音箱,手机上的语音助手,输入法上的语音转文字按钮等等。这些基础设施,共同构成了环绕在我身边的一个语音环境。


最近,我对语音技术的看法,随着一件小事发生了变化。很多人都习惯用手机定闹钟,我也一样。遇到春节假期,自然会考虑关闭接下来一周的闹钟,免得美好的假期生活被打扰。


但是,当我想要关闭闹钟的时候,问题来了。我的手机上有两套闹钟系统:一套是常规的闹钟,也就是系统自带的“时钟”应用中,自带的闹钟;另一套闹钟在手机的“就寝模式”中,当用户设定了就寝和起床时间后,手机在相应的时段进行一系列的操作。比如,进入勿扰模式,检测拿起手机等动作,并在“起床时间”发出提醒,这也算是闹钟。


尴尬的事来了,系统自带的“闹钟”应用比较好找,但是,“就寝模式”是近期系统更新后才上线的新功能,入门有点深,使用频率也不高,我一时半会找不到在哪儿。


当时已经很晚了,我躺在床上,浑身困意,挣扎着用最后一丝清醒,唤醒手机的语音助手,并告诉她:帮我把接下来一周所有的闹钟都关了。


实际上,我说这句话时,心里也没底。毕竟是第一次向语音助手发出这样“复杂”的指令。平时,我和身边的语音设施,互动虽然很频繁,但是内容非常单调,基本上就是用语音控制开关,查一下天气等等,都是一些非常简单的操作,对于语音技术,我并没有抱太大希望。


但是几秒钟后,语音助手给出让我非常满意的答复:好的,主人。已帮你关闭时钟和就寝模式下所有的闹钟。与此同时,伴随着语音,屏幕上显示了可视化的结果:已关闭*个闹钟,以及就寝模式下*个闹钟。


这几乎是一个满分的回答,当晚我很快就睡着了。第二天早上,闹钟确实没响,我睡到自然醒后,又想起这个案例。这个案例最有意思的地方在于:我和语音助手都在“进化”。我下意识地想到用语音交互来解决问题,而它(即语音助手)既听懂了,也做到了,这是我没想到的。


说到这里,有人可能想到去尝试“复现”这个操作,我想说,不一定能实现。这背后,既有后端技术和算法的迭代,更有“前端”我和语音助手之间平时的积累。如果没有平时我和语音助手之间,那些高频次的互动,以及略显单调的话题,我估计它很难在关键时刻,听懂我想要什么,并给出满意的结果。


二是洗手的事。除了语音之外,近期还有一个例子,让我印象深刻。在疫情发生后,我的智能手表也更新了一项功能:洗手提醒。当手表感知到用户在洗手时,会自动启动20秒倒数计时器,如果检测到你没达到洗手时间,它会提示您继续洗手。



这个功能最初上线时,误报和漏报的几率很高。因为手表也在学习,它在根据你手部的动作,传感器和麦克风传来的声音综合判断你是否开始洗手。当它“怀疑”你在洗手,会弹出如下提示:



在我看来,这既是邀请用户标注数据,更是一种良性的互动。每次我遇到这种提示,我都会很自觉的、尽可能真实的反馈问题。带来的结果是,最近,我的手表检测洗手的准确度,已经越来越高了。


前几日,在某行业群里参与讨论时,我跟大家分享了这两个案例。有群友给出结论:AI的成长,需要用户陪跑(感谢左手医生创始人兼CEO张超精彩观点)。


我很是喜欢这句话。用户一定要认识到,AI不是简单的商品或者单纯的服务,买来就用,用完就走。或者说,你卖你的,我用我的,用得好我就给你点赞,用得不好就发牢骚。


用户一定要理解AI的特殊性。我之所以乐意为手表标注数据,愿意耐着性子和语音助手互动,是我的医工背景,加上我对于行业的理解,让我认识到,AI的价值体现和行业发展,少不了用户的参与,这种参与不仅仅是购买和使用,更是标注、陪跑这种看似不起眼的小事。


04
总结


最近,IBM Watson的话题再次登上媒体。对于Watson的失败,我认为根子在于失衡。投入与产出的失衡,过高的期待值与实际表现之间的失衡等等。


太阳底下没有新鲜事,在我们读书时,这种事便屡见不鲜:高考时,有些人奔着清华北大去的,结果考了个重点一本,外界难以接受,自己承受压力,心态失衡;有人平时默默无闻,无人问津。高考时,考了个重点一本,自己满意,外界点赞。


语音技术作为人工智能的一个分支,经过大家多年努力,已经体现出自身价值和良好的落地应用场景,已经具备了成为生产力工具的价值和能力。希望这项技术不要被捧杀,也不要被低估,而是按照自己的实际,以自己的配速奔跑,也希望用户、医疗机构更多的参与和陪跑,多方发力,共同进步。



作者简介

李楠,CHIMA青年委员。先后毕业于第一军医大学生物医学工程系和兰州大学信息科学与计算机学院,现供职于某公立三甲医院,从事信息化工作。作者观点仅代表个人,纯属技术交流,与供职单位无关。