技术领域的从业者花了数年时间开发语音识别软体。目前,IBM称其语音识别软体的字词错误率仅为5.5%,低于之前的6.9%的记录。这对于语音识别行业来说是重大的里程碑,可能最终会引领Siri和Alexa等语音助手的技术改进。
微软声称去年10月使用类似于联想词云的神经语言模型达到5.9%的错词率。当时,该公司认为这个数据能与人类错词率相媲美。但IBM说这个数据并不值得庆祝。IBM主要研究科学家乔治·萨恩(George Saon)在本周发表的一篇博客中写道:「我们是实现今天里程碑的重要贡献者,然而我们确定人类实际错词率比目前所有语音识别系统能达到的错词率都低-仅为5.1%。」
IBM通过所谓的长短期内存(Long Short-Term Memory),人工神经网路、与三种强大的声学模型相结合的WaveNet语言模型,开发出了错误率仅为5.5%的语音识别系统。然后使用「SWITCHBOARD」语料库对此语音识别系统进行测量,该语料库是几十年来被用作语音识别软体测量的标准。实现5.5%的词错率是一个大突破,但实际上,测试标准并不总能体现真实数据的复杂性和多样化,与此同时,人类实际词错率的确定也表明我们还远没有达到最终目标。
哥伦比亚大学计算机科学系教授Julia Hirschberg说:「降低语音识别错词率和衡量人类词错率是一个持续性的挑战。因为人类的言语,特别是在随意交谈的时候,是非常复杂的。同时,我们也很难为人类错词率做标准界定,因为每一个不同的个体在理解他人语言上水平参差不齐。」
相关信息补充:
IBM公司语音识别研究团队一直以「创造一种更具活力的电脑交互方式」作为重要使命之一。IBM于上世纪50年代末开始语音识别的技术研究。在1962年西雅图世界博览会上,由IBM研发出的「鞋盒」大放异彩,成为当时世界上最先进的语音识别机器,这台机器能理解人类口述数字0~9以及简单的运算口令。但在之后的很长一段时间里,由于电脑技术和语音识别研究方法的限制,语音识别并没有太大进展。直到信息理论的强大统计演算法的出现,语音识别才重新踏上了进步发展之路,能识别5000个英语单词的语音识别系统面世。但还有一个问题摆在技术人员面前:这台语音识别处理机大的出奇,无法实现应用普及化。
时至今日,对于大众最为熟悉的语音识别系统是Apple的Siri。藉助高速网路的发展,Apple利用高性能伺服器代替了手机来进行有大量复杂运算需求的语音识别工作。同时,搜索引擎和ios手机系统的结合,更使得Siri用户体验性得到大幅度提升。在Siri大获全胜后,Google等高科技企业也纷纷加入语音识别的开发洪流,而曾经的「语音识别奠基人」IBM也在这个洪流中再度占据鳌头。
时至今日,对于大众最为熟悉的语音识别系统是Apple的Siri。藉助高速网路的发展,Apple利用高性能伺服器代替了手机来进行有大量复杂运算需求的语音识别工作。同时,搜索引擎和ios手机系统的结合,更使得Siri用户体验性得到大幅度提升。在Siri大获全胜后,Google等高科技企业也纷纷加入语音识别的开发洪流,而曾经的「语音识别奠基人」IBM也在这个洪流中再度占据鳌头。 技术领域的从业者花了数年时间开发语音识别软体。目前,IBM称其语音识别软体的字词错误率仅为5.5%,低于之前的6.9%的记录。这对于语音识别行业来说是重大的里程碑,可能最终会引领Siri和Alexa等语音助手的技术改进。
微软声称去年10月使用类似于联想词云的神经语言模型达到5.9%的错词率。当时,该公司认为这个数据能与人类错词率相媲美。但IBM说这个数据并不值得庆祝。IBM主要研究科学家乔治·萨恩(George Saon)在本周发表的一篇博客中写道:「我们是实现今天里程碑的重要贡献者,然而我们确定人类实际错词率比目前所有语音识别系统能达到的错词率都低-仅为5.1%。」
IBM通过所谓的长短期内存(Long Short-Term Memory),人工神经网路、与三种强大的声学模型相结合的WaveNet语言模型,开发出了错误率仅为5.5%的语音识别系统。然后使用「SWITCHBOARD」语料库对此语音识别系统进行测量,该语料库是几十年来被用作语音识别软体测量的标准。实现5.5%的词错率是一个大突破,但实际上,测试标准并不总能体现真实数据的复杂性和多样化,与此同时,人类实际词错率的确定也表明我们还远没有达到最终目标。
哥伦比亚大学计算机科学系教授Julia Hirschberg说:「降低语音识别错词率和衡量人类词错率是一个持续性的挑战。因为人类的言语,特别是在随意交谈的时候,是非常复杂的。同时,我们也很难为人类错词率做标准界定,因为每一个不同的个体在理解他人语言上水平参差不齐。」
相关信息补充:
IBM公司语音识别研究团队一直以「创造一种更具活力的电脑交互方式」作为重要使命之一。IBM于上世纪50年代末开始语音识别的技术研究。在1962年西雅图世界博览会上,由IBM研发出的「鞋盒」大放异彩,成为当时世界上最先进的语音识别机器,这台机器能理解人类口述数字0~9以及简单的运算口令。但在之后的很长一段时间里,由于电脑技术和语音识别研究方法的限制,语音识别并没有太大进展。直到信息理论的强大统计演算法的出现,语音识别才重新踏上了进步发展之路,能识别5000个英语单词的语音识别系统面世。但还有一个问题摆在技术人员面前:这台语音识别处理机大的出奇,无法实现应用普及化。
IBM02
时至今日,对于大众最为熟悉的语音识别系统是Apple的Siri。藉助高速网路的发展,Apple利用高性能伺服器代替了手机来进行有大量复杂运算需求的语音识别工作。同时,搜索引擎和ios手机系统的结合,更使得Siri用户体验性得到大幅度提升。在Siri大获全胜后,Google等高科技企业也纷纷加入语音识别的开发洪流,而曾经的「语音识别奠基人」IBM也在这个洪流中再度占据鳌头。