为何医生需求很大的电子病历语音转录产品,国内市场却一片空白?

 

本文授权转自AI掘金志

AI掘金志为雷锋网旗下只报道“AI+传统”的内容频道

 

说到医疗人工智能,很多人首先想到的是医疗影像,因为相关的企业和产品时常抛头露面。但如果问医生最想要哪种形式的人工智能,答案却很可能是电子病历语音转录。

 

“出现这种反差,其实并不意外”,北京捷通华声科技股份有限公司(以下简称捷通)总经理武卫东对雷锋网AI掘金志说道。医疗影像的处理技术早在模式识别时代就有了,发展至今已经有二十年左右的历史。影像处理是和医疗诊断直接相关的技术,国内外从事相关技术研究的高等院校、科研院所和企业很多。只不过近几年,随着数据的积累和深度学习算法的应用,图像识别的准确率有了大幅提升,也被更多人所熟知。

 

而国内的语音识别技术直到最近两三年才取得突飞猛进式的发展,识别准确率从80%多提升到了95%以上,达到了实用化的水准,并逐渐发展出了面向医疗等行业的定制化模型。目前,国内从事语音技术的企业还相对较少,掌握语音核心技术的公司更是有限。

 

为何电子病历语音转录备受期待?

 

武卫东表示,电子病历语音转录之所以备受期待,主要有三方面的原因:

 

一、可以为医生节省手写病历的时间。国内医生的工作任务通常比较繁重,除了跟病人沟通交流,还要花费大量时间和精力书写病历和医疗文书。利用语音识别技术将医生和病人的对话自动转录成文本,可以帮助医生腾出时间来为更多患者服务,提升工作效率。

 

二、可以为医患纠纷提供材料佐证。医患纠纷是医疗行业的一大难题,一旦出现医患纠纷,医院往往处在弱势地位,因为缺少足够的资料证明医生在诊断和用药的过程中没有失误。医院现有的HIMSS系统只能记录患者的基本信息,简单描述患者的基本症状,以及医生用了什么药。这种记录的完整性还远远不够。

 

现在很多保险公司正在大力推进“双录”机制,即录音、录像,作为解决投诉纠纷的证明材料。语音录入病历不仅是将医生和病人的对话转成文字和结构化的数据进行存储,便于后期查询和智能化分析;同时也会保留原始的录音文件,作为处理医患纠纷的证明材料。

 

三、语音转录形成的结构化数据可以在一定程度上缓解医疗资源不足、不均的问题。国内的病人看病都喜欢去大医院挂专家号,但专家号很难挂,原因在于医疗资源不足。其实很多非三甲医院、地方医院的设备并不见得很差,真正缺少的是经验丰富的优秀医生。过去医疗经验的传承主要是“师傅带徒弟”的模式——一个主任医师带几个学生,传播的范围和效率都很有限。假如我们利用结构化的医疗数据搭建一个医疗大数据平台,让经验不足的医生可以通过它学习专家的诊断经验,培养更多的医学人才,就能在一定程度上缓解国内医疗资源不足和不均衡的问题。我想这才是电子病历语音转录更高层次的意义。

 

为何国内市场一片空白?

 

很多医生在和雷锋网AI掘金志交流时都提到,自己看到国外医生使用语音录入病历时十分羡慕。武卫东也表示,电子病历语音转录技术在国外确实更为普遍,但这种语音转录技术和今天略有不同。

 

“以前Nuance在印度有一个特别大的、面向全球医生的人工坐席呼叫中心。申请了这项服务的医生只需要随身携带PAD并佩戴耳麦,和病人交流时语音就能传到呼叫中心。呼叫中心通过语音识别技术将语音转录成文字,并由人工进行校对,医生需要时就能直接查看。语音医疗呼叫中心曾经带来的收入在Nuance的整体收入中的占比甚至超过了50%。”

 

武卫东认为,国内的电子病历语音转录市场之所以一片空白,除了跟国内语音识别技术起步较晚有关,也跟医疗体系结构密不可分。

 

“在美国,每个家庭都有自己长期合作的诊所和私人医生,这些医生通常是全科医生。病人只要有任何身体上的不适都可以找他,医生进行初步诊断后,再将病人转给相应的专科医院。医院的病历数据是相对公开的,可以跨医院调取,这在中国的医疗体制下非常困难。另外,美国的商业医保比较发达,医院的数据对保险公司是公开的。中国是公费医保,每个医院都有自己的体系,不同体系之间相互隔离。在中国建立一个Nuance这样的面向全国医院的客服中心几乎是不可能的。”

 

虽然国内现在也在积极学习国外的医疗体系结构,积极推动分级诊疗和医联体模式,但进展比较缓慢。这一方面是因为国内的医疗资源非常稀缺;另一方面,医院之间的数据链路也很难打通。

 

“虽然医生对语音录入病历的需求非常旺盛,但医院还处在封闭、半封闭的状态,没有形成社会化的体系,项目必须一家医院一家医院去对接,推进速度非常缓慢。”武卫东向雷锋网AI掘金志说道。

 

空白中该如何突围?

 

如今国内的智能语音市场可谓是群雄逐鹿,百度,阿里,科大讯飞等都在语音技术上投入巨大,实力雄厚。面对这些重量级的竞争对手,捷通华声的灵云到底有哪些优势?又该如何竞争呢?

 

武卫东表示,现在大多数语音识别公司采用的都是深度学习算法,各家在语音识别基础算法的差距并不会特别大,在识别普通话和带方言的普通话,准确率都差不多。而主要的差距在于数据的规模、归集和行业化的定制。通常掌握的数据规模越大,加上资金和人力方面的优势,可以做适应性更强的语音识别模型。捷通华声在2013年就成立了清华灵云人工智能中心,与清华大学的教授团队经过多年的合作,在机器学习和深度神经网络算法方面奠定领先优势,企业对行业应用有着的深入理解和大量实际数据的积累,因此在医疗行业的这个特定赛道上谁将胜出现在定论还为时尚早,但我们有信心在这个行业上成为人工智能应用发展的领头羊。

 

灵云用于电子病历语音转录模型训练的数据主要有两大来源:一是来自互联网的大量医学专业知识和文献资料;二是医生在真实工作场景中产生的数据,这是最关键的。

 

武卫东介绍道:“医生在诊疗过程中的语言组织和表达都是相当专业规范的。医生面对的是来自全国各地的病人,所以他们工作中基本使用的是普通话或带口音的普通话,识别起来相对容易。利用互联网上的数据初步训练出模型之后,就可以投入医院试用,在实际应用场景中进一步学习和优化。目前灵云已经和七八家医院达成了合作,其中包括急救中心、烧伤专科、综合医院、部队医院等多种场景。”

 

 

电子病历语音转录光有语音识别还不够,必须结合具体的业务场景。医生门诊或查房时环境往往比较嘈杂,要求医生必须在嘴边佩戴一个麦克风。武卫东认为,这种方案虽然给医生带来了一些便利,但同时也造成了束缚。灵云的解决办法是引入麦克风阵列技术,只记录特定方向传来的语音信息,从源头上消除噪声。医生门诊时只需要在桌上放置一个类似鼠标的设备,通过声源定向、语音增强、降噪以及远场识别等一系列核心技术,即可实现优秀的语音转录效果。

 

“医院需要的是整套的业务系统,而不是单一的技术。”武卫东说道:“灵云是一个开放的全方位人工智能平台,我们拥有四大能力——智能语音、智能图像、智能语义、生物特征识别。”

 

对于医院来说,OCR技术也非常重要。比如病人带着A医院的化验单和诊断书去B医院就诊,这些资料在A医院的系统都有电子备份,但B医院是无法调取的,而这些信息又是非常有价值的。这时候B医院就可以借助OCR技术将化验单和诊断书读取、识别并转化成结构化的文本数据。

 

“我们并不是在一个点上和对手竞争,而是同时向医院输出多项能力。我们提供的是软硬一体的解决方案,比如在语音转录方面我们有自己的灵云麦克,结合OCR应用我们推出了扫描仪和高拍仪整体应用解决方案。灵云并不是什么都做,而是将自己的优势——语音识别和文字识别等技术,与上下游产业链的资源(比如北大方正的医疗管理系统)相结合,形成独特的生态优势。”武卫东说道。

 

还有哪些问题需要解决?

 

武卫东坦言,虽然电子病历语音转录技术确实能给医生带来便利,但目前还处于市场培育阶段。医院还在边考察边适应,只在某些科室进行了示范性的应用,并没有全面推广。另外,技术本身也需要进一步优化。

 

医生对电子病历语音转录技术仍然有一些不满的地方:一是改变了他原有的工作习惯,现在医生查房都需要携带一个PAD,但医院的WiFi信号可能并不总是稳定的,会给医生造成一些不便;二是使用方法略为繁琐,使用前需要进行设置;三是语音转录之后医生还要一定时间进行校正修改,文本后处理技术还需要完善。

 

除了电子病历语音转录,语音技术在医院还有很多落地场景。比如很多年前就已经在医院大规模应用的语音叫号;再比如智能语音导诊,通过语音控制灯光开关,设置医疗器械参数等等。武卫东认为,语音技术在这些场景的落地应用相对容易些。

 

“我相信语音转录病历未来的发展会非常迅速,但目前还处于市场培育阶段。单个医院在语音转录方面的投入大约在100-200万,不包括大数据分析。大数据分析大家谈论得比较多,但现阶段还多为概念,并非一两年内就能实现的,这片市场未来市场规模很大,我相信亿级规模是一定有的。”

 

武卫东表示,捷通华声刚刚进入电子病历语音转录市场,这个市场仅仅刚刚开始,还未形成规模。捷通华声的策略是先在医院里做一些标杆性的应用方案,先把技术打磨好。等这项技术真正开始大规模应用时,再联合上下游的合作伙伴,以技术打包的形式向医院推广。

 

他认为,语音转录病历会先从大型医院开始推广,同时在部分私营医院试点,私营医院在引进新技术,提升智能化管理水平和综合实力的需求比较积极。

 

获得 Adobe Flash Player