2019年12月26日,由百度与ZOL联手举办的智见未来峰会——暨2019年度星标大奖颁奖盛典在北京举行。在盛典上百度语音首席架构师贾磊发表了主旨为百度大脑语音技术的前沿进展的演讲,从百度语音产品矩阵、百度智能语音解决方案、百度智能语音交互系统这三方面全方位介绍了百度智能语音交互系统全景。
百度语音首席架构师贾磊
贾磊指出,面对未来智能语音产业链的新需求,百度将研发新一代的端到端智能语音交互系统,实现语音交互全链路协同处理。
百度创新提出复数CNN网络的语音增强和声学建模一体化方案
贾磊在演讲中提到,传统的远场语音交互系统中,是先采用一个基于麦克阵列的语音增强模块,之后再接一个语音识别模块,两个模块串联连接。这种系统设计方法具有很多先天局限性。为了更好的智能远场语音交互体验,我们需要设计一套全新的深度学习模型。如果能设计一种全新架构,一套模型,从原始多路声音信号开始,对识别文字直接端到端建模,从而使得远场识别性能大幅度的提升。可以唤醒后,360度随意的识别,并且不用要求设备音频回路必须是线性,贾磊说。
而这就是百度推出基于复数CNN网络的语音增强和声学建模一体化的端到端语音识别方案的初衷。其最大特点就是颠覆了数字信号处理学科和语音识别学科的传统经典理论,直接一套模型端到端的打通两个学科,完全数据驱动,端到端建模,贾磊说。
具体来讲是,该模型底部以复数CNN为核心,利用复数CNN网络挖掘生理信号特点。采用复数CNN,复数全连接层以及CNN等多层网络,直接对原始的多通道语音信号进行多尺度多层次的信息抽取,期间充分挖掘频带之间的关联耦合信息。
在保留原始特征相位信息的前提下,这个模型一次性实现了前端声源定位、波束形成和增强特征提取等功能。该模型底部CNN抽象出来的特征,直接送入端到端的流式多级的截断注意力模型(SMLTA)中,从而实现了从原始多路麦克信号到识别目标文字的端到端一体化建模。
百度贾磊:百度大脑语音实现突破,深度学习助力语音识别打破领域壁垒
因为整个网络的优化准则完全依赖于语音识别网络的优化准则来做,完全以识别率提升为目标来做模型参数调优。而由此带来的好处也不言而喻。根据统计数据显示,相较于传统基于数字信号处理的麦克阵列算法,基于复数CNN网络的语音增强和声学建模使得错误率降低超过30%。
贾磊说:我们基于以上这个技术,对于语音交互上将有更大的提升,而这种提升和进步是颠覆性的。另外深度学习完成了数据革命和计算革命之后,开始进行跨学科整合,继续获得生命力和提升。
另外从复数CNN网络的语音增强和声学建模一体化方案来看,深度学习在完成数据革命和计算革命之后,开始进行跨学科的整合,打破学科间的壁垒,两个学科联合在一起继续获得生命力提升,这是百度语音技术提升的轨迹,贾磊指出。
SMLTA+全双工免唤醒拓展百度多语音识别能力
百度提出流式多级的截断注意力模型SMLTA,在国际上首次实现流式注意力建模超越整句注意力模型的性能,也是国际上首次实现在线语音识别大规模使用注意力模型。SMLTA在大幅提升识别速度的同时,也提高了识别准确率。输入法有效产品相对准确率提升15%,音箱有效产品相对准确率提升20%。
基于此百度在对话能力迎来重大技术革新——全球领先的全双工免唤醒能力,实现了一次唤醒,多轮交互免唤醒词连续对话。
基于以上技术,百度提出了语音语义一体化解决方案,即百度可以做到一套模型同时识别中文英文和方言。如在2019年1月百度输入法上线河南、山东、四川、东北、陕西、安徽方言的无障碍输入,今年年底将支持河北、山西、湖北、湖南、云南等。另外,值得一提的是,百度输入法还是支持中英文混合语音输入,而且识别率大幅度改进提升。
除了在应用和技术上的突破创新,贾磊还带来了百度大脑语音技术的前沿进展:百度2018年和2019年先后推出百度昆仑百度鸿鹄两款人工智能专用芯片,让智能时代的核心硬件技术自主可控。经过不断优化发展迭代升级,基于鸿鹄语音芯片已逐渐开始覆盖智能家居、智能车联、智能IoT的三大场景解决方案。
贾磊说,2018年和2019年先后推出百度昆仑百度鸿鹄两款人工智能专用芯片,让智能时代的核心硬件技术自主可控。
主题演讲最后,贾磊表示:希望通过语音技术和硬件芯片,为各大厂商为中国社会做更好地服务。
写在最后
当前以AI技术为核心的第四次工业革命已经拉开大幕。特别是随着5G商用之后,AI技术的落地正在加速,同时也是AI渗透到社会生活方方面面的开始。
这里百度凭借自身AI核心技术上取得诸多突破和储备,以及积极打造AI开放生态这两大优势,正确立在AI技术革命中的行业领先地位。