全球首款开放麦克风阵列SDK上线 开启智能硬件语音交互新时代

语音作为人类交流最自然的方式,比文字和图像更具天然的优势。物联网时代,语音交互已然成为众多智能硬件交互方式的首选。不过,近场语音交互技术在使用场景上要求低噪声、无混响、距离声源很近等等,还远不能满足家电、车载等智能硬件对自然人机对话的渴望。解决噪音问题,追求真实环境下更自然人机交互方式,提升远场语音识别率成了智能硬件厂商的迫切需求。

近日,捷通华声远场语音交互技术实现再升级,专为智能终端远场交互信号处理打造的灵云麦克风阵列SDK全球首款开放,正式上线灵云平台(aicloud.com),使麦克风阵列降噪能力更强,大大提高了远场语音识别率,可实现真实环境下更为自然的人机交互。

灵云麦克风阵列SDK  智能硬件语音交互新时代

此次在灵云平台正式上线的为灵云麦克风阵列V3.0产品,是捷通华声专门针对智能家电、车载、机器人、音箱等智能终端远场语音交互推出的语音信号处理SDK,可适配多麦克风阵列布局,目前上线的支持windows系统平台,后续还会支持更多系统,3米识别率超过95%,5米识别率同样超过92%,在各种复杂噪音环境中均能实现精准远场语音识别。

在捷通华声与清华大学的共同努力下,灵云麦克风阵列SDKV3.0的语音唤醒、声源定向、回声消除、语音降噪等方面功能均达到了行业领先水平。

  1. 语音唤醒

通过说出唤醒词,使设备从休眠状态中唤醒,支持1个或者多个唤醒词,且唤醒词可自行设定。5米唤醒率 > 95%,误唤醒率 < 1次/24小时。

2、回声消除&语音打断

消除设备自身播放的声音,保证只获取说话人的声音。如在电视播放时,过滤掉电视的声音,识别人说的换台指令;与机器人沟通时,灵活打断机器人的说话。

3、声源定向

支持2/4麦克风线性布局,实现180°声源定向,定向精度 < ±15°;支持4/6麦克风环形布局,实现360°声源定向,定向精度 < ±10°。

4、语音降噪

增强目标说话人方向的语音,抑制说话人方向以外的声音,消除非人声背景音,并可动态追踪声源位置,实现远场声音采集。

装上灵动双耳  让每个智能硬件更懂你

语音识别本质上必须和声学处理融合,语音设备没有好的耳朵显然不行,而灵云麦克风阵列SDK则能让智能硬件的双耳更加灵敏,并配合已有的云+端语音识别、语义理解、语音合成、声纹识别等语音技术,可以为客户产品提供全链条的语音交互产品和服务。

目前,市场上提供的Mic阵列软硬件结合解决方案价位普遍在200元/个左右,纯软件方案也要近50元/个,高昂的价格让成本控制严格的家电、车载等智能硬件生产厂商望而却步。

相比与此,灵云麦克风阵列通过灵活的软硬件搭配,针对不同场景的产品,推出了各种性价比较高的组合方案,家居家电,机器人,车载产品都可以找到适合自己的麦克风阵列产品组合。

伴随产品的不断完善升级,灵云麦克阵列技术已经成功应用于新松、木爷等几十家服务型机器人中,以及众多智能车载产品中,并与众多电视、空调等智能家电厂商建立了合作。

通过不断推出并完善灵云麦克风阵列软硬件产品,捷通华声努力将语音识别从传统的单麦克近讲推动到多麦克远讲时代,从而让每一家智能硬件企业都能以较低的成本拥有语音识别这项入口级的技术,使得社会大众能够体验到更自然、更流畅、更贴心的人机交互。

获得 Adobe Flash Player