AI唇语识别！人工智能领域的下一个风口-巨人网络通讯

AI电话机器人免费使用加微信：veteran88
防封电销卡免费获取加微信：veteran0003

看到别人在低声讨论时，你是不是就想学习唇语来看破他们在讨论的什么，小编是经常有这种想法，不过，现在不需要了，因为我们已经有了AI唇语识别，可以让每个人都具备看懂唇语的能力。

什么是唇语识别

所谓的“唇语识别”，其实并不神秘。

就是通过“观察别人的嘴型，解读其表达语句”的能力。目前，一些听力障碍者们也会使用这种技巧与他人进行交谈，补充听力器官的不足。

但随着科技的发展，人工智能在各领域渐次开放，在唇语识别上，机器已经做的比人类好了。

从技术路径上，唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术。

唇语识别的研究现状

2003 年，Intel 就开发了唇语识别软件 Audio Visual Speech Recognition（AVSR），开发者得以能够研发可以进行唇语识别的计算机。

2016 年 Google DeepMind 的唇语识别技术就已经可以支持 17500 个词，新闻测试集识别准确率首次达到了 50％以上。

2017年搜狗推出了一种人机交互新技术——“唇语识别”。该系统达到60%以上的准确率，超过google发布的英文唇语系统50%以上的准确率。在垂直场景如车载、智能家居等场景下甚至已经达到90%的准确率。

AI唇语识别技术原理：

唇语识别技术从镜头输入到理解输出，中间最重要的关键是：视觉前段、视觉特征提取、唇动识别。

视觉前段——包括人脸检测与唇的检测和定位，先用人脸检测演算法得到人脸然后有针对性的定位唇动；

或者利用最佳闽值二值化演算法，以唇的边缘是平滑的，和左右形状对称为条件，作为二值化闽值选定的约束条件，得到平滑而对称的唇图像。

视觉特征提取——是对获取的唇图像进行处理得到对应特征，特征提取方法主要分为基于图元的方法和基于模型的方法两大类；

搜狗所用的基于模型的方法就是，对唇的轮廓建立一个模型，将特征资讯包含在这个模型之中，并对模型中特征资讯的变化用一个小的参数来描述。

这类方法的优点是重要特征被表示成二维参数，不会因光照、缩放、旋转、平移而改变，缺点是忽略了细微的三维资讯，可能会对后面的识别过程造成影响。

唇动识别——目前采用的技术大多是隐玛尔可夫模型（ Hidden Markov Model，简称 HMM ），该模型认为唇动信号在极短时间内是线性的，可以用线性参数模型来表示，然后将许多线性模型在时间上串接起来，组成一条玛尔可夫链。

据了解，在非特定开放口语测试中，目前的通用识别准确率已经在 70％以上，而在金融风控、车载、智能家居等垂直场景下，已达到超过 90％的准确率。

除此之外，唇语识别技术还能发挥巨大的公益价值，帮助先天性听障人群或老年人，让他们更好地理解和表达自己。

全 部 栏 目

全部栏目