智能语音交互随着智能硬件产品的发展,在机器人、家居家电、车载等产品中,已经有了广泛的应用,被誉为下一代人机交互方式。
不过,互联网时代的语音识别在很多场景中,都在手机等近讲设备上完成。所谓的近讲设备,是指设备只有1到2个麦克风,语音交互距离只能局限在0.5米范围,且对周围的噪音抑制能力较差。
在物联网时代,如果想要在远场识别的产品中,达到一个好的语音交互体验,引入麦克风阵列产品势在必行,麦克风阵列利用声音信号处理算法,对空间中的声音做信号处理。
例如,在语音唤醒时,定位说话人的方位,进而增强说话人方向的语音,抑制说话人方向以外的声音,同时抑制非人声背景音,另外对设备自己播放的声音也可以通过回声消除功能过滤掉,实现语音打断的交互体验。
麦克风阵列通过2个,4个或者6个麦克风,组成线性布局阵列或者环形布局阵列,可以实现3~5米范围内的有效拾音,配合优化的远场识别模型,语音识别率可以达到95%以上。
捷通华声和清华大学合作,在和合作伙伴推出一系列麦克风阵列硬件产品后,麦克风阵列SDK即将登陆灵云平台(aicloud.com)。
届时,智能硬件的开发者在灵云平台的开发者社区即可完成麦克风阵列SDK下载。在捷通华声技术支持人员的配合下,完成SDK集成,实现麦克风阵列技术和智能硬件产品的结合,打造出具备出色语音交互体验的机器人、家电、音箱、车载产品。
捷通华声依托清华大学在麦克风阵列信号处理领域10多年的技术积累,在产品化的过程中,不断和客户的产品磨合,使麦克风阵列核心技术在语音唤醒、声源定向、回声消除、语音降噪等方面均达到了行业领先水平。
作为捷通华声灵云人工智能平台的第11项核心技术,麦克风阵列技术登录灵云平台后,配合已有的云+端语音识别、语义理解、语音合成、声纹识别等语音技术,可以为客户产品提供全链条的语音交互产品和服务。
无论客户的产品是哪一种平台,哪一种形态,灵云VUI(Voice User Interface)均可以提供对应的方案,提供定制化的语音服务,和客户一起推出差异化语音交互的产品。
一些QA
Q:如何使用灵云麦克风阵列SDK?
A:开发者需要登录灵云开发者社区,下载对应版本的麦克风阵列SDK,对于需要移植SDK的硬件系统平台,开发者需要联系灵云技术支持工程师,沟通移植对应的SDK版本。
Q:怎么将SDK与麦克风硬件结合起来?
A:用户的智能硬件产品,需要支持安卓,windows或者linux系统,同时可以采集到2路,4路或者6路麦克风原始录音,以及1路或者2路回声消除参考音频,需要和灵云技术支持工程师沟通,保证录音和灵云麦克风阵列SDK适配。
Q:2/4/6麦克风阵列分别适合哪些智能硬件?
A:主要看设备的形状、尺寸和应用场景,例如,空调通常是面向前方180°拾音,用线性阵列,2/4麦克风都可以;家庭陪伴机器人在室内四处走动,需要拾取来自360°各个方向的声音,可以用4/6麦克风环形阵列。当然,麦克风越多,拾音和定向效果越好。
Q:麦克风阵列SDK是否需要适配灵云远场识别SDK?
A:原则上没有对第三方语音识别做限制,不过考虑到后续语音识别的优化,建议采用灵云远场语音识别SDK。除了灵云远场语音识别SDK,做为全方位的人工智能平台,灵云平台的声纹识别SDK也可以配合麦克风阵列SDK做优化。
灵云麦克风阵列高级产品经理高江江介绍到,相比市场上的同类产品,灵云麦克风阵列SDK登录灵云平台后,作为全球第一个开放的麦克风阵列平台服务提供商,充分表明捷通华声的用户理念,即全面拥抱智能语音硬件产品的合作伙伴,致力于和客户一起推出差异化的语音交互产品。
灵云平台的第11项核心技术——麦克风阵列技术,在全面服务智能硬件产业的过程中,必然会将语音交互产品从传统的近讲时代推向远场语音交互时代。
灵云平台更多信息:www.aicloud.com
体验灵云客服机器人:010-82826886-8898