智能硬件远场语音交互:一文读懂灵云麦克风阵列

引入更为自然的远场语音交互,已成为电视、空调、机器人等众多智能硬件的发展趋势及广泛需求。捷通华声依托成熟的核心技术,推出灵云麦克风阵列软、硬件产品及针对不同智能硬件的远场语音交互解决方案。

配合灵云麦克风阵列,捷通华声同时在灵云开发者社区提供灵云种子SDK、灵云语音识别SDK、语音合成SDK、语义理解SDK 、声纹识别SDK等全链条的语音交互产品,以及强大的公有云平台服务支持,使得硬件能轻松实现远场精准语音交互。

核心技术  源自清华

作为技术驱动型的企业,捷通华声与清华大学合作,拥有语音唤醒、声源定向、回声消除、语音降噪、远场识别在内的全部灵云麦克风阵列核心技术,且各项核心技术指标均达到业界领先水平。

语音唤醒

支持1个或者多个唤醒词,且唤醒词可定制,支持第三方唤醒词。5米唤醒率 > 95%,误唤醒率 < 1次/24小时。

声源定向

支持2/4/6个麦克风,线性/环形布局,180°/360°声源定向。线性布局阵列定向精度 < ±15°,环形布局阵列定向精度 < ±10°。

回声消除

支持单声道/立体声双声道回声信号输入,采样率16000Hz,采样位数16bit。

语音降噪

增强目标说话人方向语音,抑制说话人方向以外的声音,消除非人声背景音。

远场识别

支持持续16k16bit音频输出,或者经过端点检测的非静音音频输出。3米识别率 > 95%,5米识别率 > 92%。

依托“源自清华”的核心技术,捷通华声为客户提供从灵云麦克风阵列SDK软件,到灵云麦克风阵列评估板,以及针对不同智能硬件推出的远场语音交互方案。

灵云麦克风阵列SDK 

灵云麦克风阵列SDK是捷通华声专门针对智能家电、车载、机器人、音箱等智能终端远场语音交互推出的语音信号处理SDK,可适配多麦克风阵列布局,可以实现各种复杂噪音环境中的远场语音识别体验。

语音识别本质上必须和声学处理融合,语音设备没有好的耳朵显然不行,而灵云麦克风阵列SDK则能让智能硬件的双耳更加灵敏,目前,SDK已可在灵云平台开发者社区内下载使用。

灵云远场语音识别麦克风阵列评估板

评估板主要方便用户体验评估灵云麦克风阵列各项功能,加快产品开发进程,日前已经成功上线灵云商城,可直接在线购买。用户拿到灵云远场语音识别麦克风阵列评估板,只需要对安照说明书进行简单的操作,即可体验产品的各项功能。

目前,灵云麦克风阵列评估板主要涉及君正芯片X1000芯片平台和瑞芯微RK3229平台,君正X1000平台支持单麦,2麦,4麦线性,4麦环形等布局形式,瑞芯微RK3229平台支持环形6麦的布局形式,用户可以根据产品的外观设计,结构尺寸,选择合适的麦克风阵列布局形式,采购对应的评估板做体验测试,辅助产品开发。

灵云系列语音交互方案

针对不同智能硬件客户,捷通华声分别推出灵云智能电视语、智能空调语音、智能音箱语音交互、机器人语音交互等相对应的解决方案,从而使灵云麦克风阵列技术以及灵云语音交互技术能更好地解决用户需求。

灵云智能电视远场语音交互方案

该方案包括近讲语音遥控器产品、远场语音遥控器产品、灵云种子产品(包含云+端语音识别和语义理解,语音合成功能)、灵云声纹识别产品,以及丰富的第三方接入内容,例如天气,音乐,百科,视频等资源。

其中远场语音遥控器产品为捷通华声独有的远场语音交互解决方案。这个方案中,远场语音遥控器采用环形4麦克风布局方式,可以实现360度声源定位,3到5米距离拾音,有效降低周围环境中的噪声,同时消除电视机播放的声音。具有极低的功耗和极高的性价比,能够在增加产品“新技能”的同时保证成本有效控制。

多年技术积累,灵云麦克风阵列以及语音交互技术已经在乐视、小米等众多电视、空调厂家产品中实现量产,同时应用于新松、棠棣、木爷等几十家服务型机器人中,并在长安众多智能车载产品中得以应用。

围绕远场语音交互,捷通华声通过成熟的灵云麦克阵列技术以,并配合国内领先的额灵云语音交互、声纹识别等技术,努力实现在让每一家智能硬件厂商都能低成本快速拥有“灵动双耳”,并轻松实现语音交互,构建智能硬件语音交互新时代。

获得 Adobe Flash Player