苹果、微软、谷歌、百度,这些公司或许是提到语音识别,用户脑海里会浮现出的名字。电影《Her》里,主人公西奥多不知不觉地爱上了幽默风趣又善解人意的虚拟女友萨曼莎,尽管后者其实只是人工智能系统的一个化身。
近日举行的中国人机语音交互领域权威的学术会议——全国人机语音通讯学术会议(NCMMSC2015)上,百度透露其在汉语语音识别方面获得重大突破。据悉,百度研发出了基于多层单向LSTM(长短时记忆模型)的汉语声韵母整体建模技术,并成功把连接时序分类(CTC)训练技术嵌入到语音识别传统技术建模框架中。该技术能够使机器的语音识别相对错误率降低15%,使汉语安静环境普通话语音识别的准确率接近97%,未来将大规模应用在百度语音搜索等产品上。
日前,百度语音技术部负责人贾磊媒体专访时称,语音识别和大数据、机器学习、云计算等技术相辅相成,共同推进人工智能发展。
他表示,机器成本、高效计算等问题,是阻碍语音识别技术发展的几个重要因素。而百度研究的CTC模型在解码部分的速度,比传统模型快5倍到10倍。配合专业的深度学习计算硬件,使后台消耗大大降低,有助于实现语音识别技术的大规模普及。
一次框架性创新
百度方面透露,该技术创新是一项框架性的创新。这一突破也标志着,百度在世界范围内率先攻克了在汉语领域使用CTC技术训练单向多层LSTM的高精度建模难题。
据了解,2011年深度学习技术引入语音识别领域,推进整个工业界的人工智能技术应用进入深度学习时代。随后的几年里,CNN(卷积神经网络)、LSTM(长短时记忆模型)、CNN混合LSTM的建模技术在语音识别工业产品中不停涌现,并持续提升语音识别产品效果。
眼下,百度把语音识别的相对错误率降低15%,又会带来何种变化?对用户而言,是识别率更准、识别速度更快。对语音服务提供者来说,成本会降低很多。
“语音识别正处于产业化爆发的边缘,但机器计算成本是一个很大的瓶颈。如果线上50%的搜索都由语音完成,而计算成本还和过去一样,那么没有公司能承担得起。”贾磊表示,语音服务要想大规模普及,必须降低后台服务器开销。
他随即说,百度语音识别研究的CTC模型在解码部分的速度比传统模型快5倍到10倍。配合专业的深度学习计算硬件,当未来语音服务大规模普及时,可以让后台计算成本大大降低。对新技术的追赶,需要大数据、大平台、极致计算等结合做支撑,因此百度这样的公司在未来有优势。
改善方言、口音和远场识别
媒体:既然将把此项技术用到百度语音搜索产品上,对应用时间表、应用前后的产品功能和用户体验差别等,能否讲讲?
贾磊:我预计最早11月末、最迟12月末上线。因为我们做的时候都是比着工业产品的体量去做的,包括模型体积、计算量、训练速度,全部跟工业要求是一致的,所以可以很快应用到产品中去。
用了之后,首先语音识别会更准,其次由于它的计算量会很小,解码速度更快,后台成本就会很低。这个模型对方言和口音的识别效果都有一定的改善,而且对远场识别也有一定改善。因为它是在一个建模单元的十几帧数据中提取出来一帧最本质最有代表性的特征来描述这个建模单元,而这个本质特征的描述不容易随着时间、地点而改变,所以对语音识别的稳定性有很大的提升。
媒体:就您研究观察,未来语音识别技术的发展趋势以及应用场景如何?
贾磊:第一,想解决口音、噪音的问题,训练数据还会继续加大,现在几万个小时训练数据是工业现状,我相信在不久的未来一定是十万小时。如果出现这么大的计算量,对计算能力的需求会更加强烈。所以大数据和高性能计算,是语音识别发展到目前最明显和清晰的趋势。
第二,是基于深度学习的个性化识别。人的口音千差万别,不可能有一个语音识别器识别所有的声音,一定要实现个性化。而这种基于深度学习的个性化识别,一定需要海量的存储空间和很大的数据吞吐传输能力,这个也只有具有大数据和云计算这种服务能力的公司能够提供。
第三个行业趋势,语音识别技术会和语意理解、交互技术等形成一整套语音的解决方案。因为人使用语音的目的不是把语音转成文字,而是使用语音去进行交互,并获得其所需的服务结果。这是未来的工业发展趋势,单纯的脱离了服务、脱离了平台、脱离了计算能力去做语音技术的时代已经过去了。百度有场景、有内容、有需求,语音一定会做得越来越好。
媒体:语音识别技术要和其他技术,比如大数据、机器学习和云计算等一起应用,结合技术层面来讲,现在时机是否成熟?
贾磊:这些技术是相辅相成的。作为人工智能学科的同业者,我的感觉是,短期去看人们倾向于高估技术的价值,从长期去看人们倾向于低估技术的价值。
现在,人们可能倾向于觉得人工智能技术很牛,能够解决一切问题。但是短期内它没有解决,因此人就会产生一个心理,这个技术没用。但是,要对人工智能技术有信心,企业要敢于投入。当然,初期商业上肯定会有一些损失,可能短时间里不会为公司带来商业价值;但长远来看,有助于研发新技术,并获得新的商业突破。