微软雷蒙德研究院开发出一种机器学习算法,使计算机对指定主题对话的语音识别率增至94.1%,首次与人类水平相当;对亲戚朋友日常对话的识别率达88.9%,甚至比人类略胜一筹。
美国国家标准与技术研究所2000年时曾发布一个数据库,以帮助解决语音识别难题。该数据库包含的电话录音有些是个人之间既定话题的谈话,其余则是亲戚朋友间的随意交谈。
结果显示,人类在转录语言时的出错率约为4%,即每一百个字中人类会错误地转录4个字。过去,机器的表现距这一数字相去甚远。如今,计算机在把个人之间既定话题的谈话内容转录成文字时,出错率为5.9%,而转录亲戚朋友间任意主题的随意交谈时,出错率为11.3%。“这比预想的还要好。”微软研究人员茨威格表示。
随后,茨威格基于不同层数的卷积神经网络来优化他们自己的深度学习系统,从而让系统的每一层能够识别语音的不同方面。然后他们用训练数据作为标准来设置机器,以便识别普通语音并且让他们能够适应测试数据库。
总的来说,微软的语音识别系统与人类具有相似的错误率,但它造成的错误类型与人类截然不同。微软机器最常见的错误是混淆反馈声音。相比之下,人类很少犯这样的错误。对此,茨威格认为,原则上机器没有不能通过训练来识别反馈声音的理由,出现误差可能与噪声在训练数据集中标记的方式有关。
微软研究人员表示,计算机语音识别能力正超越人类水平,“这对计算机行业的重要意义不亚于图形用户界面”,其中既包括Xbox这样的消费娱乐设备,也包括即时语音转文字等可访问性工具,以及“小娜”这样的个人数字助理。