电话机器人超越你对语音识别的认知
电话机器人是近两年兴起的人工智能产品,它主要经过电话群呼潜在客户,沟通进行信息挑选,协助企业选择意向客户。企业运用电话机器人能够削减人工成本,进步作业效率。
电话沟通也是言语进行信息沟通的一种方法,对人类来说,这是十分简略的一件事,但关于机器而言,就不是一件易事了,其间触及了主动语音识别技术。
语音识别,又称为主动语音识别(Automatic Speech Recognition,ASR),指让计算机主动将人类的语音内容转换成相应文字。
语音识别技术已经有五十多年的历史,真实开端得到广泛使用,仍是近几年的事。随着移动设备、可穿戴设备、智能家居设备、车载体系变得越来越盛行,对话交互也逐步变成了人机交互中的要点。
语音识别主要由以下几个根本模块组成:信息处理和特征处理、声学模型(AM)、言语模型(LM)、发音词典和解码器。
信号处理和特征提取。它是语音识别体系的榜首部分,其主要使命是接纳最原始的音频信号,为后边的声学模型提取合适的有代表性的特征向量。一起,它也包括了一些信号处理技术,如尽可能降低环境噪声、信道失真、说话人等要素对特征造成的影响。
声学模型。一般的语音识别体系大都运用隐马尔科夫模型对词、音节、音素等根本的声学单元进行建模,生成声学模型。能够简略了解为是对发声的建模,它能够把语音输入转换成声学表明的输出。
言语模型。言语模型对体系所需识别的言语进行建模。正则言语、上下文无关文法在内的各种言语模型都能够作为言语模型,现在大多数的语音识别体系遍及选用的仍是基于计算的N元(N-gram)模型及其变体。它能够估量经过练习学习词与词之间的相互联系,来估量假定词序列的可能性。
发音词典。发音词典包括体系所能处理的单词的调集及其发音。发音词典得到了声学模型建模单元和言语模型建模单元之间的映射联系,将两者连接起来,组成一个查找的状况空间用于解码器进行解码作业。
解码器。解码器是语音识别体系的中心之一,其使命主要担任读取输入的语音信号的特征序列,再根据声学模型、言语模型及发音词典,解码出以最大概率输出该信号的词串。
语音识别就是一个先编码后解码的进程,信号处理和特征提取就是编码的进程,由原始的语音得到语音向量。后边便是对语音向量的解码,而解码需求上面说到的声学模型和言语模型。
与计算机视觉不同,语音识别有且只有一个中心使命——将人类的语音转换成文字。简略来描绘机器识别语音的进程:言语由单词组成,单词由音素组成,假设咱们将一段语音的声波按帧切开,用帧组成状况,用状况组成音素,再将音素组成单词,语音就变成了文字。
音素:音素是最小的语音单位,一个发音动作构成一个音素。音素构成音节,音节又构成不同的词和短语。音素又分为元音和子音。
状况:这儿能够将其了解成比音素更详尽的语音单位。一般把一个音素划分红3个状况。
现在中使用比较广泛的语音识别软件有IBM公司的Viovoice、科大讯飞的语音识别产品、苹果的Siri等,而现在市面上的智能音箱、车载配备等产品也都是语音识别看得见摸得着的使用。能够说,语音识别技术是人工智能落地比较老练的技术领域之一。
尽管语音识别技术仍然还有许多亟待进步的地方,比如方言的语音识别、高噪音环境下的语音识别等方面还有一段路要走。但不可否认的是,随着信息技术的不断开展,语音识别技术也将不断获得打破,有着愈加宽广的开展空间。