作者简介
本文作者为携程基础业务研发部呼叫中心团队,其在传统呼叫中心基础上,结合软交换、智能分配、自动语音语义处理等技术,为携程用户提供人性化、人机互动、便捷的电话语音服务。
一、前言
智能手机早已成为日常生活中不可或缺的一部分,随着移动互联网的快速发展,人们的生活习惯与工作方式也在不断发生改变。从移动通信、移动支付,再到移动办公,“移动化”已渗透至各行各业,并逐步成为企业业务发展的趋势。
携程呼叫中心研发团队根据业务的需求,研发完成了一套完整的呼叫中心移动坐席解决方案,使业务坐席不再受制于工作时间、办公地点,随时随地,有网络的地方,就有呼叫中心。
二、移动办公呼叫中心系统架构
移动场景保留了典型的呼叫中心系统架构,在接入端加入 SBC,用于移动呼叫中心语音接入和安全控制。坐席无论身在何处,只需要一台电脑、智能手机或智能设备,通过 Wifi、3G 或 4G 网络登录坐席 App,即可开启日常工作。
三、移动场景下面临的挑战
目前国内企业的 Intranet 基本为 100M,而自有机房的核心网络可达到 1000M 甚至双 1000M。因为物理网络有着高度可靠的带宽、网络质量与稳定性,用户基本无需顾虑带宽、延时、网络抖动等情况。
而相较于物理网络,移动环境普遍存在着稳定性差、带宽波动剧烈、信号覆盖不均衡导致网络频繁切换等多个问题,加之外部环境的复杂性与多样性,通话延迟、卡顿、中断、回声与噪声等问题难以避免,克服这些问题便成为了呼叫中心移动化所面临的巨大挑战与难点。
四、携程呼叫中心移动坐席解决方案
携程呼叫中心通过优化标准的 SIP 协议,减少坐席应用与后端服务的交互;深度定制音频编解码器,在提高音质的同时降低了数据流量;通过丢包补偿技术来提升弱网环境下的通话质量。
基于优化后的 SIP 协议开发标准的 SDK,应用层可快速实现电话相关的功能,将原来基于电脑或 IP 电话的 IP-Talk 的方式移植到移动智能终端,突破传统的空间限制,实现了完全开放的自由移动。
1、CCodec
音频编解码器,通俗理解就是把自然界的声音采集,转换成数字信号,再采用相应的压缩技术,对得到的数字信号进行压缩,即可形成常见的音频文件,如 wav、mp3、aac 等。
而音频的数字化采集与处理,理论上无法实现完全与自然发音相同,只是尽可能优化算法,使其最大化接近原始发音。同等条件下,音频质量主要取决于以下技术指标:
经过相关的编码、压缩算法的处理,音质越高所产生的音频流越大,传输所需要的带宽也越高,与之相对应的,耗费的流量也同比上涨。
移动场景下,音频编码及相关的压缩算法需要在提高音质保证用户体验的同时,尽可能降低传输带宽和存储空间。如果音频编解码能支持动态码率,便能为用户带来更好的通话体验。所谓动态码率支持,即:
携程呼叫中心研发团队通过研究最近的音频编解码技术和相关压缩算法,研发完成了一套有损音频编码器——CCodec。
CCodec 是基于开源音频编解码算法研发的有损音频编解码器,不仅可以支持动态调整比特率、音频带宽和帧大小,同时能在编码的过程中根据音频数据的复杂程序即时确定使用的比特率,在保证质量的前提下兼顾编码后产生文件的大小,即 VBR(Variable Bit Rate)。在保证音频质量的同时,大大降低了数据流量,尤其适合互联网上的语音实时交互和音乐传输。
CCodec 可用于较多类型的音频应用,如 VoIP、视频会议、游戏内的语音聊天、基于实时的音乐会直播等。其主要有以下特性:
-
支持多种比特率
-
支持 8kHz 到 48kHZ 的采样率
-
支持 CBR 和 VBR 两种码率技术
-
支持单声道和立体声
-
支持多声道
-
可以动态调整比特率、音频带宽和帧大小
-
具有较好的鲁棒性丢失率和丢包补偿机制
经过实验对比,除以上技术功能的支持外,它也具有良好的低算法延迟,非常适合实时通讯类的应用。在平衡音质和比特率的情况下,算法延迟可进一步降低到 5ms。
质量比特率对比
从比特率与质量的对比曲线中可以看出,CCodec 编解码不仅在低比特时对音频的保真超越了 iLBC、AMR-NB、Speex、AMR-WB,在高比特率的情况下,音质依然越超众多现有的编解码。
在移动弱网场景下,可以设置 CCodec 比特率为16-32,优先满足通话功能,进行有效沟通。而当网络状态良好的情况下,可以使用32以上的比特率,以适应传输更高品质的音乐等丰富的音频数据流。
比特率迟时对比
呼叫中心系统多用于处理用户的电话咨询或售后服务,属于实时通信系统。在实时通信系统中,音频的延时对双方的沟通体验会造成巨大影响,而延时也是实时通讯系统中极为重要的标准。因此,音频算法的延时显得尤为重要。
CCodec 编解码器算法延时小的特性,非常适合应用于携程电话、VoIP 或视频会议等应用场景。
2、CSIP
SIP 是由 IETF 制定的多媒体通信协议,它是一个基于文本的应用层控制协议,用于创建、修改和释放一个或多个参与者的会话,广泛应用于 CS(Circuit Switched,电路交换),NGN(Next Generation Network,下一代网络)以及 IMS(IP Multimedia Subsystem,IP 多媒体子系统)的网络中,可支持并应用于语音、视频、数据等多媒体业务。
而 CSIP 是一个基于 SIP、SDP、RTP、STUN 等协议而实现的通信库,可以支持音频、视频及短消息的传输。为适应移动网络的抖动、时延,CSIP 实现时加入了以下特性:
3、Ctrip PhoneSDK 便捷接入
CSIP 功能强大且灵活,但由于是基于 C 语言开发,接口及使用方式对于移动开发来说,比较复杂且不宜使用。PhoneSDK 在 CSIP 的基础上进行了逻辑封装,提供简单且易于使用的接口 API。
考虑到呼叫中心的特殊场景,在 PhoneSDK 的基础上,团队进一步扩展了与坐席相关的功能,实现了坐席的登录、状态改变等相关功能,进一步降低了坐席类应用的开发成本。
PhoneSDK 可快速实现以下网络电话相关的功能:
-
呼出/应答
-
挂起
-
转移
-
静音
-
多人会话
-
会议
-
网络状态监测
-
IPv6
-
WebSocket
-
P2P
-
TCP/SSL/UDP
-
噪声消除
-
回声抑制
-
丢包补偿
-
抗网络抖动
-
动态码率调整
流量对比
为了使用 PhoneSDK 适应移动场景下的音频传输,在音频压缩方面采用了有损压缩算法,在保证音质的前提下,大大降低了编码后的音频大小。在相同的网络环境下,使用相同的设备进行测试,在使用 CCodec 48KHz 采样率的情况下,编码的音频仅为微信的1/2,是传统 G711/PCMu 的1/3左右。
五、案例—— “十一贝”呼叫中心私有云
北京十一贝技术有限公司,主要侧重于保险营销业务,提供去哪儿等用户群不同类型的保险产品。根据其业务特性及具体需求,以移动 App 为主题,利用 PhoneSDK 快速研发了一套坐席 App,提供十一贝业务人员使用。