前言
语音电话机器人是具有自动拨打电话、接听电话、多轮语音交互、智能意向判断等多种功能的智能对话机器人。语音机器人可以快速挖掘潜在用户,及时解决用户问题,进而提高服务质量和服务效率,在房地产、金融、教育、银行、保险、电商等行业广泛应用。机器人相对于人工坐席,具有成本低、效率高、工作态度稳定,数据记录全面等优势,具体对比如下:
搭建语音机器人方案
下面我们将从工作流、系统设计与汇港通机器人搭建三部分介绍如何利用汇港通平台搭建智能语音机器人。
一、工作流
我们来考虑一个基本的、完整的语音对话的运作流程:
上述的流程涉及到了语音对话场景中三个主要的步骤:用户接起/呼入、客服应答并等待用户下一步动作、用户动作/无动作。每一步骤都有自己特定的需求,一个智能的语音呼叫系统,应当能较好地处理这些需求。
用户接起/呼入:呼叫流程的开始,语音呼叫系统应该要支持接通、识别用户的呼入信号与呼出接通信号等。
客服应答并等待用户下一步动作:在呼入场景下,语音呼叫系统要能够识别用户的呼入意图,并给出用户回复。在呼出场景下,基于呼叫话单,语音呼叫系统要能够进入任务流程,给出询问的话术。
用户动作/无动作:用户的所有下一轮反应可以归纳为用户动作和无动作。语音呼叫系统应该要能合理地处理用户动作和无动作,并给出用户回复。
二、系统设计
基于以上的语音呼叫工作流,我们先从整体上介绍语音呼叫系统的技术架构与呼叫流程。
技术架构
语音呼叫系统的技术架构主要包含以下七大模块:
-
通讯管理模块:SIP Server包括FreeSWITCH[1]电话系统和通信线路,使用SIP Trunk技术,负责语音/按键流的输入输出,以及转人工参数传递等。
-
语音模块:负责语音相关的操作,包括语音识别(ASR)、语音合成(TTS)、端点检测(VAD)以及录音播放等,通过HTTP接口形式和其他模块通信。
-
中控模块:中控模块是语音呼叫系统的集成模块,负责和其他系统及模块对接,打通和控制整个呼叫流程。主要任务是将ASR识别结果传入对话机器人,并将机器人返回的指令,转换成电话系统控制指令,实现放音、转人工、挂机等流程的控制。
-
存储模块:负责将和通话相关的必要信息存储到数据库,方便后续的质检工作。
-
防骚扰模块:负责中控模块话单的拨打控制,通过一定的防骚扰策略设置,避免对同一号码的反复拨打。
-
CRM模块:工单模块负责工单任务的创建和业务的处理,也可以查看话单拨打结果、查询通话录音、人工回拨等业务操作。
-
机器人管理模块:机器人模块是系统解决方案中的AI赋能系统,包括基于业务流程的任务机器人,和基于知识库的问答机器人。
智能语音流程
语音呼叫(呼出)流程主要包括:创建呼叫任务流程和拨打流程。
创建呼叫任务流程,涉及到CRM模块、防骚扰模块、中控模块和语音外呼模块(包括通讯管理模块与语音模块)等系统模块。主要流程包括:
拨打流程,涉及到通讯管理模块,语音模块、中控模块、机器人管理等主要的模块。具体流程包括:
-
外呼模块通过线路开始拨打用户电话;
-
待电话接通后,开始一个语音/动作处理的循环流程。呼叫模块(通讯管理模块,语音模块)将SIP流语音信息/用户动作识别为文本信息/用户动作事件,并将这些信息推送到中控模块;
-
中控模块将ASR识别结果传入汇港通平台,并将任务机器人返回的指令,转换成电话系统控制指令;
-
外呼模块负责实现放音、转人工等流程的控制。之后再开启一个语音/动作处理流程;
-
待用户主动挂机,或汇港通平台控制挂机后,中控模块收集用户挂机报告、用户录音文件报告等信息进行数据存储,以备后续查询。
语音内呼(呼入)流程主要包括拨打流程,涉及:CRM模块、中控模块和呼入模块等系统模块。具体流程包括:
-
用户通过线路开始拨打电话;
-
待电话接通后,开始一个语音/动作处理的循环流程。内呼模块将SIP流语音信息/用户动作识别为文本信息/用户动作事件,并将这些信息推送到中控模块;
-
中控模块收到通话文本信息后,中转通话信息到汇港通平台;
-
汇港通平台进行意图识别(NLP),再根据机器人流程进行对话控制,并返回回复给到中控模块。此过程也会调用CRM模块自动创建工单,用于后续业务的处理;
-
中控模块根据协议内容响应呼入模块;
-
呼入模块根据回复内容播放相应的录音文件,或者进行语音合成并播放,或者进行转人工等操作;
待用户主动挂机,或汇港通平台控制挂机后,呼入模块发送用户挂机报告、用户录音文件报告等信息,中控模块进行数据存储,以备后续查询。
语音呼叫流程的实现,得益于汇港通对话机器人平台。在语音场景下,汇港通电话机器人平台在处理用户接起/呼入、消息应答等方面有着很大的优势。下面围绕电话机器人流程搭建、痛点问题、效果优化三方面,来介绍如何基于汇港通平台搭建智能语音机器人。
汇港通机器人流程搭建
+
1) 触发任务
语音机器人和文本机器人在任务的触发上稍有不同。文本机器人可以通过用户输入的文本信息直接进入后续流程,语音机器人则需要在用户拨打电话或者接听电话时,由语音呼叫模块发送指定的触发词到汇港通平台,触发词触发任务机器人后进入对话流程。通过触发任务,语音呼叫系统完成了用户接起/呼入的任务。
2) 会话流程
会话流程应该要解决两个问题:用户动作识别与机器人应答。
用户动作一般可以归纳为以下几种类型:
-
静默:静默指在等待用户动作时,用户没有按键、说话等其他可以被归纳或识别的动作,也可以称之为静音/用户不回答/无应答。
-
拒绝:明确拒绝,明确拒绝所介绍的产品或服务,一般常见于外呼场景,例如:不需要、不考虑、没有打算、不感兴趣等。
-
否定:对AI说的话的否定,如您之前预约过我们公司的课程是吧?用户如果回答不知道,并不是拒绝AI介绍的产品或服务,而是对AI某些问答的否定。
-
肯定:用户希望向下一步或者判定可以继续向下走,类似同意、可以、登记等。
-
自定义的业务选项:如您想办理什么业务呢?代收快递、门卫放行等自定义意图。
-
未识别:也可称之为拒识,一般还要分为两个层级,不在当轮任务中所列选项,或者调用问答知识库之后仍没能召回知识点。
-
任意回复:也称作任何回复
-
其他特殊反应:如未听清、再说一遍(重说)、信号不好、你是谁、哪里的、干嘛的、什么事等。
对于上述的一些用户动作,汇港通平台使用实体抽取的方法。实体和词槽是任务机器人在对话过程中需要理解的特定信息,对话管理则负责对词槽进行填充、更新或清空,并控制对话的流程。当用户动作被发送到汇港通平台后,可以根据用户的动作,来决定后续会话的流程,并获得机器人应答。
机器人应答涉及以下几个方面:
-
根据用户意图进入任务流程:基于历史的咨询语料以及内外呼热点问题, 总结出一些业务流程,机器人通过多轮对话的方式和用户进行交互,帮用户完成任务。用户语音回复话术,机器人基于NLU识别出用户的意图,如肯定,否认,拒绝服务,在忙,提问等,语音呼叫模块识别语音/动作后,通过中控发送给机器人,并跳转到下一步任务。
-
任务流程切换:意图的切换与保持,允许在一个流程未完成的情况下,切换到另一个任务中。切换后,原任务的对话流程可以保持一段时间。新任务流程结束后,机器人可主动切回原任务流程,例如客服来进入电确认试听课时间流程,在用户回复过程中触发了咨询老师课程安排流程,当前流程结束后仍可以继续上一个未完成流程(确认试听课时间流程)。
在这里,用户也可以通过按键进入转人工意图,客服人员会加入会话处理用户的需求。
如下边的例子,客服拨打电话,进入任务流程,咨询试听课问题时间,同时用户咨询是否有成人口语训练课程,进入问答流程,机器人给出回复。最后用户可以继续任务流程。
-
将语音返回用户:中控获得机器人回复后,将系统动作转变成自然语言文本,并将文本转语音或者录音文件名传给语音呼叫模块,语音呼叫模块进行相应的放音操作。
-
挂断:在以下三种情况下,会进行挂断操作,待用户主动挂机,或汇港通平台控制挂机后,内呼/外呼模块发送用户挂机报告、用户录音等信息。1)当机器人完成用户的任务后,用户可以通过按键来结束挂机。2)当机器人多次询问用户,用户有两次静默后,机器人会主动挂机。 3)当用户可能会在中途随时选择挂机。
-
数据存储:在有些项目上,需要记录用户的标签,用户对应轮次的回复,走过的轮数,对用户进行打标(这种记录通常被称作埋点),埋点通常在各个流程之后以词槽记录的形式留下来,比如:用户经过第一轮的时候,用户轮次变为走过第一轮;用户提到价格时候,通过隐藏单元拿到用户说了价格,然后记录下来用户说了价格这件事;另外还有基本的对每一轮用户反应的判断最后如何影响最终的结果。最后,将信息存到表里即可。
痛点问题解决方案
语音场景下用户回复啊、哈、咳等单字的情况比较明显,或者由于信号问题、环境音等情况会被语音识别为呵呵 等,这些无意义的特殊语音可能会中断正常的放音流程,容易造成话术的重复播放或者打乱正常的任务流程。
对于单字、特殊语音文本,现有方案是在汇港通平台上维护了一个过滤列表。和正常的通话流程一样,当有过滤列表中的信息进入流程后,语音呼叫模块会收到汇港通平台回复特殊的标志信号,从而可以忽略这些干扰信息。同时,在汇港通平台建立过滤信息列表,也方便维护和扩展。
打断也是语音场景下容易出现的一种场景,例如营销场景中对于项目的介绍,由于电话机器人回复内容过长,就会出现用户打断的情况。对于打断的场景,需要解决的是:当打断发生后,应该能够根据场景需要适时终止当前放音,进入下一对话流程中去。目前打断处理的解决方案是配置录音信息,设置是否可以打断、静默时间、播放时间等参数,语音呼叫模块可以根据这些参数控制当前放音是否终止,以及是否需要播放新的录音等。
收集通话信息,能够为后续质检、流程优化提供一个有力的参考。在营销型场景中,收集通话信息更是在提炼用户画像,区分用户类型,筛选潜在用户等方面重要的意义。目前语音呼叫方案中通过汇港通平台主要收集三种信息:用户意图分数、用户类型、用户语义标签。
在多轮对话中,每一轮的问答都会对用户的意图进行判断,并计算用户意向分数。例如,用户同意,意向分数+2;用户拒绝,意向分数-0.5;挽回拒绝,意向分数+1.5,对话结束后会形成一个用户最终的意向分数。
用户类型信息是和语音对话深度、命中关键词相关的。在汇港通平台,每一轮对话都有澄清和跳转的流程,当一轮对话完成澄清进入下一轮之后,增加对话的节点深度。完成整个对话流程后,可以根据对话节点深度和命中的关键词确定用户类型。
以上面的对话流程为例,可以得到一个基本的用户画像,例如:
初步意向:有兴趣
意向分数:5
挽回:不同意
用户类型:E(命中了在忙的关键词)
用户语义标签:位置相关
以上的通话信息可以反馈到CRM,方便进一步地筛选用户,或者回拨电话等后续的操作。
语音和文字相比,会遇到多种特殊情况,我们的处理方法如下:
效果优化方案
1) 用历史语料训练ASR 并提升语音识别的准确率
考虑到ASR会带来识别错误,我们会有针对性的优化语义理解模型,例如使用拼音相似度特征、对语音识别结果进行纠错等。ASR优化的方案包括:根据领域关键词增加热词;根据领域自然语言文本优化语言模型;基于标注的语音数据优化声学模型。
2) 丰富相似问,训练模型来提高准确率
搭建好语料知识库后,通过扩充专业词汇,维护实体,相似问扩充,并利用历史语料等,不断训练模型优化,来提高问题召回的准确率。
3)针对语音场景,增加容错机制
考虑到语音机器人有可能遇到识别问题,以及强任务的特点,我们在任务机器人中设计了容错机制,比如内呼部分,如果我们不能识别会请用户再说一遍。这样的话可以挽回一些第一次语音转写失败的案例,进而提高了准确率与召回率。
4)优化话术,提高成功率
当文字话术升级成了语音话术,用户对话术设计提出了更高的要求,通过用户的实际反馈和拨测的感受,我们优先确认了下面几个基础原则:
在用户心中,好的话术要兼顾理性和感性原则。理性原则体现在机器的话是有用的,话术应该是以目标为中心、准确、简洁的;感性原则强调对话过程令人愉悦,话术应该是自然、友好、有个性的。
语音呼叫电话机器人和传统的文本机器人在很多方面存在差异性,这不仅体现在语音呼叫电话机器人的系统架构和流程上面,还体现在一些特殊的场景和需求上。系统架构方面,语音机器人需要在传统机器人的基础上增加对语音识别、语音转换、线路等方面的支持;特殊场景和需求上,汇港通平台为复杂对话流程和场景提供了好的对话能力。基于汇港通科技有限公司打造的语音电话机器人可以为传统的销售、客服等人力密集型业务提效,提供一种较好的解决方案。