如何从语音识别系统中获得最佳效果-巨人网络通讯

如何从语音识别系统中获得最佳效果

老秦夜译

　　CTI论坛(ctiforum.com)（编译/老秦）:Voci Technologies的Rahul Shankar讨论了音频质量，单词错误率以及如何从语音识别系统中获得最佳效果。

　　在数字音频领域，音频质量是对从电子设备输出的音频的准确性，保真度和清晰度的评估。

　　鉴于音频是自动语音识别（ASR）系统的主要输入，因此，音频质量对于最大化此类系统的性能至关重要。

　　音频质量越差，ASR系统的转录就越困难，这将导致转录的准确性降低。

　　Rahul Shankar在Voci的部分职责包括评估客户的音频质量，并向客户提出个性化建议，以优化其音频质量以生成最准确的笔录。

　　因此，在本博客中，Rahul Shankar将讨论最佳音频质量实践，以确保您的ASR系统发挥最佳性能。

　　确保高质量的通话记录

　　如果您要录制和制作音乐，则无需进行任何后期处理就可以解决由于乐器录制不佳而引起的问题。

　　不管是什么原因引起的问题（例如，麦克风放置不当，背景噪声，混响问题），如果原始录音的质量很差，在后期制作中就几乎无计可施。

　　这几乎完全适用于语音到文本技术。与所有其他因素相比，质量差的源音频对字错误率（WER）的影响更为严重。

　　这就是为什么。人脑具有将听觉注意力集中在特定刺激上的能力，同时滤除一系列其他刺激。

　　例如，参加聚会的人可以专注于嘈杂房间中的单个对话。（鉴于这种例子的普遍性，这种能力通常被称为鸡尾酒会效应。）

　　ASR系统无法做我们人类所能做到的--将注意力集中在特定的刺激上。它将所有刺激视为声音输入。引入失真的声学背景（例如在上面的鸡尾酒会示例中）将大大降低ASR的有效性。

　　对于某些背景噪声源（例如电视，广播/音乐，交通噪声等），识别引擎可能会对其进行调整或解决。

　　但是，与语音共享相同频率范围的源更具挑战性。例如，请考虑是否有麦克风接听附近的呼叫中心座席。

　　一个人可以轻松地区分声音。一个ASR系统却会发现非常困难。ASR无法彻底可靠地滤除的任何背景噪声都会对WER产生不利影响。因此，高质量的记录很重要。

　　避免错误的转码

　　代码转换是一种编码形式到另一种编码形式的直接数模转换，即将文件从一种格式更改为另一种格式。许多呼叫记录系统都会这样做，以最大程度地利用数字存储空间。

　　在音频转码中，有四种转码类型，每种类型对ASR转录的成功都有不同的影响：

无损到无损
无损到有损
有损到有损
有损到无损

　　无损到无损转码是唯一安全且建议的转码形式，因为在此过程中不会丢失音频信息。

　　例如，从.wav文件转换为.flac文件是无损压缩的一个示例，通常用于节省磁盘空间而不影响质量。

　　磁盘上以8位/16kHz频率运行的10分钟单声道。wav文件约为9.8MB，而flac压缩后的同一文件约为5.6MB。

　　相反，两种形式的有损转码都会降低质量。更糟糕的是，压缩伪像是累积的。这意味着无损转码将在每次连续转码过程中导致质量的逐渐损失，这被称为数字世代损失。

　　此过程是不可逆的，因此也称为破坏性转码。因此，强烈建议不要在有损格式之间或之内进行有损格式的代码转换，并且可能会在自动转录过程中产生问题。

　　有损到无损的转码（又称为上采样）甚至更糟。它遭受双重受损。此过程首先从有损文件的音频质量差开始，然后增加未压缩文件的文件大小。

　　由于首先创建（丢失）文件的（破坏性）转码过程中造成的信息丢失是永久且不可逆的，因此对文件进行无损转码只会增加文件大小，而不会提高质量。

　　明智地选择编解码器

　　这有点技术性，但是在研究通话记录技术时，它是一项重要功能。

　　语音编码的目标是在给定的比特率下使失真最小化，或在可接受的失真度下使比特率最小化。

　　但是，作为这种失真的客观衡量指标的信噪比（SNR）与感知的语音质量并没有很好的关联。

　　因此，语音编码器的性能通常使用主观评分方法来衡量，该方法称为平均意见评分（MOS）。

　　MOS的测量范围为0-5.4.0-4.5的值称为收费质量，代表用户完全满意。

　　这是公用电话交换网（PSTN，我们都知道的标准电话网）的正常值。它也是大多数VoIP电话服务提供商的基准。

　　即使仍可理解，MOS得分等于或低于3.6，也被许多用户认为是不可接受的。

　　G711是实现最佳ASR性能的理想编解码器。从理论上讲，没有任何编解码器可以比G711更好地执行，因为它提供了最佳的质量，没有压缩和最低的算法延迟。

　　在无法使用G711的情况下，应使用在MOS评估中始终稳定在4.0以上的编解码器，例如G726，G722.1和GSM-EFR。

　　原文网址：https://www.callcentrehelper.com/get-best-speech-recognition-system-158324.htm

上一篇：可以使客户服务自动化的8个机器人
下一篇：全渠道联络中心的最大优势

如何从语音识别系统中获得最佳效果

老秦夜译 CTI论坛(ctiforum.com)（编译/老秦）:Voci Technologies的Rahul Shankar讨论了音频质量，单词错误率以及如何从语音识别系统中获得最佳效果。在数字音频领域，音频质量是对从电子设备如何,从,语音,识别,系统,...

400号码受理中心：为消费者提供便捷服务的重要平台

400号码是指中国电信、中国联通、中国移动、中国铁通四家运营商提供的以“400”为开...

八大做业务没有客户的原因

1、手中拥有的潜在客户数量不多。客户就是给推销员下订单的人，推销员手中拥有的...

宁波防封AI机器人公司-本周热搜

宁波防封AI机器人公司座席电话量难以准确的统计，工作报表统计困难，工作报表必须...

青岛电信电销外呼线路哪家专业-你应该知道

青岛电信电销外呼线路哪家专业保证对话正常进行。成熟的智能外呼机器人可以支持批...

联通省公司正副职新一轮调整完毕 60后大幅提升

3月22日，知情人士透露，日前披露的中国联通新一轮省公司及总部部门总经理调整已结...

周口百应外呼系统怎么收费（百应外呼系统多少钱一个月

本篇文章给大家谈谈周口百应外呼系统怎么收费，以及百应外呼系统多少钱一个月对应...

人工智能如何在呼叫中心客户体验中发挥重要作用？

我们都知道，人工智能几乎接管了所有业务运营。自动化减轻了不同行业员工和经理的...

提升我国种子企业知识产权综合能力的政策建议

1加快种业资源整合，培植中国种业旗舰种子行业只有进行一次全方位整合和重组，才...

400电话办理线上办理速度更快吗？

互联网的发展速度非常快，随着网络的不断发展，很多业务都可以直接在网上办理，...

青岛高新区正式启动运行“统一咨询投诉呼叫中心”

随着“智能化”审批、“不见面”审批的深入应用和推广，近期，青岛高新区办事群众...

海口电话机器人哪家好用（电话机器人好用吗?）

今天给各位分享海口电话机器人哪家好用的知识，其中也会对电话机器人好用吗?进行解...

西安市稳定白名单电话卡靠谱

4G改变生活，5G改变社会。我国自去年正式启动5G商用后，人们对5G充满期待。众所周知...

电销服务外包团队名称大全（电销外包公司如何盈利）

本篇文章给大家谈谈电销服务外包团队名称大全，以及电销外包公司如何盈利对应的知...

4006995555电话一般干嘛的4006995555是催款电话吗

4006995555电话一般干嘛的4006995555是催款电话吗以下内容由巨人小编整理发布。是招商来...

镇江手机外呼系统哪家好的简单介绍

本文目录一览： 1、哪家的外呼系统好用？ 2、哪家的手机外呼系统比较好用呢？ 3、手...

如何从语音识别系统中获得最佳效果

全 部 栏 目

全部栏目