AI电话机器人免费使用 加微信:veteran88
防封电销卡免费获取 加微信:veteran0003
看到别人在低声讨论时,你是不是就想学习唇语来看破他们在讨论的什么,小编是经常有这种想法,不过,现在不需要了,因为我们已经有了AI唇语识别,可以让每个人都具备看懂唇语的能力。
什么是唇语识别
所谓的“唇语识别”,其实并不神秘。
就是通过“观察别人的嘴型,解读其表达语句”的能力。目前,一些听力障碍者们也会使用这种技巧与他人进行交谈,补充听力器官的不足。
但随着科技的发展,人工智能在各领域渐次开放,在唇语识别上,机器已经做的比人类好了。
从技术路径上,唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术。
唇语识别的研究现状
2003 年,Intel 就开发了唇语识别软件 Audio Visual Speech Recognition(AVSR),开发者得以能够研发可以进行唇语识别的计算机。
2016 年 Google DeepMind 的唇语识别技术就已经可以支持 17500 个词,新闻测试集识别准确率首次达到了 50% 以上。
2017年 搜狗推出了一种人机交互新技术——“唇语识别”。该系统达到60%以上的准确率,超过google发布的英文唇语系统50%以上的准确率。在垂直场景如车载、智能家居等场景下甚至已经达到90%的准确率。
AI唇语识别技术原理:
唇语识别技术从镜头输入到理解输出,中间最重要的关键是:视觉前段、视觉特征提取、唇动识别。
视觉前段——包括人脸检测与唇的检测和定位,先用人脸检测演算法得到人脸然后有针对性的定位唇动;
或者利用最佳闽值二值化演算法,以唇的边缘是平滑的,和左右形状对称为条件,作为二值化闽值选定的约束条件,得到平滑而对称的唇图像。
视觉特征提取——是对获取的唇图像进行处理得到对应特征,特征提取方法主要分为基于图元的方法和基于模型的方法两大类;
搜狗所用的基于模型的方法就是,对唇的轮廓建立一个模型,将特征资讯包含在这个模型之中,并对模型中特征资讯的变化用一个小的参数来描述。
这类方法的优点是重要特征被表示成二维参数,不会因光照、缩放、旋转、平移而改变,缺点是忽略了细微的三维资讯,可能会对后面的识别过程造成影响。
唇动识别——目前采用的技术大多是隐玛尔可夫模型( Hidden Markov Model,简称 HMM ),该模型认为唇动信号在极短时间内是线性的,可以用线性参数模型来表示,然后将许多线性模型在时间上串接起来,组成一条玛尔可夫链。
据了解,在非特定开放口语测试中,目前的通用识别准确率已经在 70% 以上,而在金融风控、车载、智能家居等垂直场景下,已达到超过 90% 的准确率。
除此之外,唇语识别技术还能发挥巨大的公益价值,帮助先天性听障人群或老年人,让他们更好地理解和表达自己。