6月12日,科大讯飞在京举办了主题为“爱输入 更懂你”的媒体见面会,会上讯飞输入法市场品牌负责人李强军介绍,目前讯飞输入法用户规模突破6亿,语音输入月覆盖率达50%。同时,讯飞语音识别率也从97%提升至98%,讯飞输入法支持扩至23种方言,为更好利用AI来保护方言,讯飞将启动方言发音人招募活动。
(图片来源互联网)
“输入法从97%到98%准确率的识别效果,提升的只是一个点,这背后发生了什么?”讯飞输入法之父翟吉博表示,识别准确率的提升有三个难点,一是使用场景多样化,二是用户习惯,三是中国汉字和文化的特殊性。针对这些难点,讯飞做了很多的努力,比如针对多样化的场景,科大讯飞分别推出了长文本输入、耳语输入。针对用户习惯和个性化,推出了个性化的训练模型,中英文混合输入,针对23种方言也推出了懂你懂乡音等。
翟吉博表示,语音输入更精准的方法离不开数据和算法。讯飞输入法从人脑神经科学入手对人类记忆进行仿生,实现大量无监督的数据去辅助有人工标注的数据。受图像领域CNN应用的启发,科大讯飞独家研发了深度全序列卷积神经网络(Deep Fully Convolutional Neural Network,DFCNN)语音识别框架,使用大量的卷积层直接将语谱图作为输入,相比传统语音特征作为输入,有效降低信息损失,非常出色地表达语音的长时相关性。同时,借鉴了图像识别中效果最好的网络配置,每个卷积层使用3×3的小卷积核训练更深的CNN模型,输出单元直接与最终的识别结果(比如音节或汉字),从而使识别准确率显着提升。
本次见面会的另一个重要环节是启动“方言发音人招募”公益行动。经济、文化活动的全球化以及区域经济的迅速发展,导致主流语言或通用语言更加强势,同时也使得弱势语言的交际功能不断衰弱,甚至濒临消亡。目前世界上的语言有6000~10000种,据语言学家预测,大部分语言将于本世纪末消失。因此,濒危语言保护(以下简称为“语保”)已经成为了一项极重要而迫切的工作。
科大讯飞多语种高级研究员祖漪清在现场讲述了方言势微的现状,她强调,利用人工智能技术进行濒危语言、方言系统研究,是实现对一个语言的完整“复制”的重要方式。因此,本次媒体见面会上,科大讯飞正式启动了“AI方言发音人招募”公益行动。