华少的快,矮大紧的京范儿口音,神仙打架的《奇葩说》,这些复杂场景的语音识别有多难?今天依图带你领略新鲜出炉的语音识别算法实力。
今天开始,依(zui)图(hao)语音开放平台上线了!
业内首次系统测试主流语音识别厂商的技术性能
(测试完成于2018年11月底)
在全球最大中文普通话数据库AISHELL-2的三个测试子集、Accent近场口音测试集、Chat近场安静聊天测试集上,依图语音识别算法最近测得多项第一。AISHELL-2数据规模达1000小时,是目前全球最大的中文开源数据库。在AISHELL2-2018A-EVAL数据集中,依图语音识别准确率达到96.29%,字错率(CER)为3.71%,领先第二名约17%。
无论是语音助手还是节目,电话客服或是闲聊,依图更懂你。
依图语音识别性能优于第二名约17%语音未来任重道远
通过手机近距离收集声音,依图优于第二名约17%,字字再现强时效内容
语速超快又有地方口音?依图和讯飞挺下来了
考验系统是不是够“皮实”、够“稳健”的时候到了!在远距离场景,环境中会存在噪声、混响和反射,依图和讯飞听见优势明显
从技术性能来说,字错率曲线抖动越小,算法的场景通用性越好。综合各场景测试的结果,业界主流算法中,依图和讯飞的算法字错率抖动相对较小。
但是同样说明了语音识别的发展既有惊喜也有遗憾。各大厂商的近场场景识别能力让我们感受到了科技的力量,而加入远场演讲的高难度场景的识别能力不足,也表明了未来的路还很远。
花式挑战算法性能依图表现稳定
听写大会小程序一经发布,各种评(tiao)测(xi)汹涌而来。依图语音凭借自身优秀的技术,展现了极其稳定的语音识别能力。
再热血的足球解说我们hold住
绕口令?依图能听清!
语音识别歌词,依图可带劲啦!
吕昊博士现场演示的这款“听写大会”小程序也是业界第一次基于公开API将市场上的主流语音识别技术性能做比较——欢迎大家去花式调戏!
语音识别命题深远 携手华为、微软共同推动技术发展
语音是语言的物质外壳,它最直接记录了人的思维活动,从语言的诞生第一天起,用语音沟通就成了最自然的一件事情。直到今天,它还是人与人之间交流的最重要的渠道。在语音识别发展的漫长过程中,不仅仅需要对声音的记录,还有对语言句子的理解和当事人的经验,语音识别能力与对知识理解的能力正相关。
正因如此,人工智能的语音识别不仅有趣,更是很有意义,它是机器理解世界的重要组成部分,是人人交互、人机交互最重要的入口,也是迈向智能发展更高阶段的必经之路。尽管这条道路已经显得非常拥挤,语音识别落地场景随处可见,做语音识别的机构百家争鸣,人工智能的语音识别仍处于初步发展的阶段。
作为一家对人工智能有着深入理解和推广应用的公司,语音识别是依图人工智能布局下一个不可或缺的组成部分。我们将始终保持在技术层面的投入,通过技术的突破来解锁更多的可能,也期待更多合作伙伴与我们共同探索语音技术的行业应用,共同推动行业发展。
(依图首席创新官吕昊博士与微软大中华区合作伙伴发展总经理周芳女士联合发布语音开放平台)
(依图首席创新官吕昊博士与华为智能计算渠道合作部部长康鑫先生联合发布智能语音联合解决方案)
今天,依图还与微软Azure联合推出依图语音开放平台(speech.yitutech.com),与华为联合发布“智能语音联合解决方案”,将依图最新的语音识别技术能力提供给第三方应用开发者,共同推动行业进步。
就像物理学家理查德·费曼所说:“我无法创造的东西,我就不能理解。”我们认为只有真的实现了人工智能,才有可能弄明白学习是怎么回事。依图对人工智能的探索永无止境。
(极客公园创始人张鹏对话依图首席创新官吕昊博士、依图科学家吴双博士)