电话机器人' target='_blank'>电话机器人是近几年兴起的人工智能' target='_blank'>人工智能产品,它主要通过电话群呼潜在客户,沟通进行信息筛选,帮助企业选择意向客户。企业使用电话机器人可以减少人工成本,提高工作效率。
电话沟通也是语言进行信息交流的一种方式,对人类来说,这是十分简单的一件事,但对于机器而言,就不是一件易事了,其中涉及了自动语音识别技术。
语音识别,又称为自动语音识别(AutomaticSpeechRecognition,ASR),指让计算机自动将人类的语音内容转换成相应文字。
语音识别技术已经有五十多年的历史,真正开始得到广泛应用,还是近几年的事。随着移动设备、可穿戴设备、智能家居设备、车载系统变得越来越流行,对话交互也逐渐变成了人机交互中的重点。
1、语音识别的组成部分
语音识别主要由以下几个基本模块组成:信息处理和特征处理、声学模型(AM)、语言模型(LM)、发音词典和解码器。
信号处理和特征提取。
它是语音识别系统的第一部分,其主要任务是接收最原始的音频信号,为后面的声学模型提取合适的有代表性的特征向量。同时,它也包括了一些信号处理技术,如尽可能降低环境噪声、信道失真、说话人等因素对特征造成的影响。
声学模型。
通常的语音识别系统大都使用隐马尔科夫模型对词、音节、音素等基本的声学单元进行建模,生成声学模型。可以简单理解为是对发声的建模,它能够把语音输入转换成声学表示的输出。
语言模型。
语言模型对系统所需识别的语言进行建模。正则语言、上下文无关文法在内的各种语言模型都可以作为语言模型,目前大多数的语音识别系统普遍采用的还是基于统计的N元(N-gram)模型及其变体。它可以估计通过训练学习词与词之间的相互关系,来估计假设词序列的可能性。
发音词典。
发音词典包含系统所能处理的单词的集合及其发音。发音词典得到了声学模型建模单元和语言模型建模单元之间的映射关系,将两者连接起来,组成一个搜索的状态空间用于解码器进行解码工作。
解码器。
解码器是语音识别系统的核心之一,其任务主要负责读取输入的语音信号的特征序列,再根据声学模型、语言模型及发音词典,解码出以最大概率输出该信号的词串。
语音识别就是一个先编码后解码的过程,信号处理和特征提取就是编码的过程,由原始的语音得到语音向量。后面即是对语音向量的解码,而解码需要上面提到的声学模型和语言模型。
2、机器如何识别语音
与计算机视觉不同,语音识别有且只有一个核心任务——将人类的语音转换成文字。简单来描述机器识别语音的过程:语言由单词组成,单词由音素组成,假如我们将一段语音的声波按帧切开,用帧组成状态,用状态组成音素,再将音素合成单词,语音就变成了文字。
音素:音素是最小的语音单位,一个发音动作形成一个音素。音素构成音节,音节又构成不同的词和短语。音素又分为元音和辅音。
状态:这里可以将其理解成比音素更细致的语音单位。通常把一个音素划分成3个状态。
3、语音识别的应用及发展
现在中应用比较广泛的语音识别软件有IBM公司的Viovoice、科大讯飞的语音识别产品、苹果的Siri等,而如今市面上的智能音箱、车载装备等产品也都是语音识别看得见摸得着的应用。可以说,语音识别技术是人工智能落地比较成熟的技术领域之一。
虽然语音识别技术仍然还有许多亟待提高的地方,比如方言的语音识别、高噪音环境下的语音识别等方面还有一段路要走。但不可否认的是,随着信息技术的不断发展,语音识别技术也将不断获得突破,有着更加广阔的发展空间。
扩展:揭秘|电话机器人的「理解」秘密2——自然语言处理(http://www.hzdaba.com/news/2018/0818/256.html)