CTI论坛(ctiforum.com)(编译/老秦):Voci Technologies的Rahul Shankar讨论了音频质量,单词错误率以及如何从语音识别系统中获得最佳效果。
在数字音频领域,音频质量是对从电子设备输出的音频的准确性,保真度和清晰度的评估。
鉴于音频是自动语音识别(ASR)系统的主要输入,因此,音频质量对于最大化此类系统的性能至关重要。
音频质量越差,ASR系统的转录就越困难,这将导致转录的准确性降低。
Rahul Shankar在Voci的部分职责包括评估客户的音频质量,并向客户提出个性化建议,以优化其音频质量以生成最准确的笔录。
因此,在本博客中,Rahul Shankar将讨论最佳音频质量实践,以确保您的ASR系统发挥最佳性能。
确保高质量的通话记录
如果您要录制和制作音乐,则无需进行任何后期处理就可以解决由于乐器录制不佳而引起的问题。
不管是什么原因引起的问题(例如,麦克风放置不当,背景噪声,混响问题),如果原始录音的质量很差,在后期制作中就几乎无计可施。
这几乎完全适用于语音到文本技术。与所有其他因素相比,质量差的源音频对字错误率(WER)的影响更为严重。
这就是为什么。人脑具有将听觉注意力集中在特定刺激上的能力,同时滤除一系列其他刺激。
例如,参加聚会的人可以专注于嘈杂房间中的单个对话。(鉴于这种例子的普遍性,这种能力通常被称为鸡尾酒会效应。)
ASR系统无法做我们人类所能做到的--将注意力集中在特定的刺激上。它将所有刺激视为声音输入。引入失真的声学背景(例如在上面的鸡尾酒会示例中)将大大降低ASR的有效性。
对于某些背景噪声源(例如电视,广播/音乐,交通噪声等),识别引擎可能会对其进行调整或解决。
但是,与语音共享相同频率范围的源更具挑战性。例如,请考虑是否有麦克风接听附近的呼叫中心座席。
一个人可以轻松地区分声音。一个ASR系统却会发现非常困难。ASR无法彻底可靠地滤除的任何背景噪声都会对WER产生不利影响。因此,高质量的记录很重要。
避免错误的转码
代码转换是一种编码形式到另一种编码形式的直接数模转换,即将文件从一种格式更改为另一种格式。许多呼叫记录系统都会这样做,以最大程度地利用数字存储空间。
在音频转码中,有四种转码类型,每种类型对ASR转录的成功都有不同的影响:
无损到无损转码是唯一安全且建议的转码形式,因为在此过程中不会丢失音频信息。
例如,从.wav文件转换为.flac文件是无损压缩的一个示例,通常用于节省磁盘空间而不影响质量。
磁盘上以8位/16kHz频率运行的10分钟单声道。wav文件约为9.8MB,而flac压缩后的同一文件约为5.6MB。
相反,两种形式的有损转码都会降低质量。更糟糕的是,压缩伪像是累积的。这意味着无损转码将在每次连续转码过程中导致质量的逐渐损失,这被称为数字世代损失。
此过程是不可逆的,因此也称为破坏性转码。因此,强烈建议不要在有损格式之间或之内进行有损格式的代码转换,并且可能会在自动转录过程中产生问题。
有损到无损的转码(又称为上采样)甚至更糟。它遭受双重受损。此过程首先从有损文件的音频质量差开始,然后增加未压缩文件的文件大小。
由于首先创建(丢失)文件的(破坏性)转码过程中造成的信息丢失是永久且不可逆的,因此对文件进行无损转码只会增加文件大小,而不会提高质量。
明智地选择编解码器
这有点技术性,但是在研究通话记录技术时,它是一项重要功能。
语音编码的目标是在给定的比特率下使失真最小化,或在可接受的失真度下使比特率最小化。
但是,作为这种失真的客观衡量指标的信噪比(SNR)与感知的语音质量并没有很好的关联。
因此,语音编码器的性能通常使用主观评分方法来衡量,该方法称为平均意见评分(MOS)。
MOS的测量范围为0-5.4.0-4.5的值称为收费质量,代表用户完全满意。
这是公用电话交换网(PSTN,我们都知道的标准电话网)的正常值。它也是大多数VoIP电话服务提供商的基准。
即使仍可理解,MOS得分等于或低于3.6,也被许多用户认为是不可接受的。
G711是实现最佳ASR性能的理想编解码器。从理论上讲,没有任何编解码器可以比G711更好地执行,因为它提供了最佳的质量,没有压缩和最低的算法延迟。
在无法使用G711的情况下,应使用在MOS评估中始终稳定在4.0以上的编解码器,例如G726,G722.1和GSM-EFR。
声明:版权所有 非合作媒体谢绝转载
原文网址:https://www.callcentrehelper.com/get-best-speech-recognition-system-158324.htm