我本科是在北京上的,记得2007年我大三的时候去德国电信实习,当时的岗位叫做技术支持,其实就算是客服了。我们当时的办公区域前方有一个大屏幕,大屏幕上是德国电信在中国几条骨干网的健康状况,由绿色、黄色、红色来表示,当上面的横条变成红色的时候,我们就需要打电话给工程师,让他们去排查一下险情。后来我们和工程师形成了默契,他们在接起电话后,我们都不用说话,他们直接回复说我知道了,电话就挂了。十年过去了,当我们今天在做外呼机器人产品的时候,我经常会想起那段做客服的时光。我们的客户有物流企业,他们常常在后半夜收到订单,在使用外呼机器人之前,他们要派几十人的团队值夜班,给各地的司机用户打电话,协调指派订单,通过我们的外呼机器人,他们减少了大量的夜班人员,外呼机器人让大家晚上能睡个好觉,为客户创造了价值。
外呼机器人是一种终极的人工智能' target='_blank'>人工智能产品形态
数据、信息、知识、决策、行动是数据系统发展的几个重要阶段,也是一个递进关系。数据就是我们常说的0和1,是对物理世界的客观表现。信息是融合了更多上下文的数据,知识是信息中蕴含的规律,决策告诉你应该怎么做,而行动是决策的执行。我们举一个地理位置系统中的例子,比如地图信息的采集,就是在数据层面;整理出来的地图包含地名和经纬度信息,在信息层面;根据用户上传的信息判断道路的拥堵情况,属于知识层面;大家开车用的地图导航,在每一个路口告诉你下一步往哪个方向走,是决策系统的功能;最后,自动驾驶汽车,就是一个终极的产品形态,因为它可以自动地把你从A点带到B点。
同样,在语音数据系统中也可以得出产品不同的进化思路,录音数据在呼叫中心系统中保存下来,是数据层面的工作;将录音数据与销售代表打通,可以把同一个座席的所有录音信息都找出来,这样的系统就在信息层面;接下来如果我们做了一个统计分析的BI系统,或者智能质检系统,这些都是知识层面的能力;外呼机器人是行动层面的产品,可以替代人工完成一段对话,所以说这是一种终极的产品形态。大家可能注意到,这里面决策层面的产品好像还是空缺的,在我们语音系统里面,有实现决策层面的产品吗?我这里先卖一个关子,等下为大家揭晓。
终极产品形态是指在未来的几十年甚至上百年的时间里,可能都会在这个产品上不断投入,不断进步。
外呼机器人的市场的崛起
2018年上半年的外呼机器人异常火爆,据不完全统计,已经有50-100家企业上线了这个新产品,我们认为市场的崛起主要有以下三方面的原因。
一是人工智能技术的成熟。首先语音识别的准确率在过去的几年中有了显著的提升,实验室环境下的语音识别准确率已经从2013年的87%提高到了2017年的97%。另外在语义理解上,在2018年初也取得了突破,在由美国斯坦福大学组织的阅读理解测试SQUAD中,人工智能第一次取得了比人类更好的成绩。
二是来自于对商业价值的考虑。今天的互联网流量越来越贵,电话反而成为了相对便宜的用户触达渠道,同时一些场景下人工智能能够代替人工,进一步降低了通过这个方式获客的成本。
三是由于电话本身的特点,智能电话首先是一个电话。今天在手机上,电话的打断优先级是最高的,电话可以打断你在使用手机时候的一切行动,逼着你要对一个来电进行选择。电话是一个同步的沟通方式,这种沟通方式在人们长时间的交流中形成了一种默契和礼貌规范,你直接问我问题的话,我不好意思不答。我也不方便在你说话的同时把电话挂断,至少会让你把句子说完,然后再挂电话。
外呼机器人的挑战和风险
我们看到的示例可能都是千里挑一万里挑一或者完全是人配合的结果,而真实的情况往往不那么美好。了解外呼机器人的挑战和风险才能更加了解技术和产品的边界,在降本增效的同时,尽量不影响用户体验。
首先是语音识别技术的挑战,前面说到实验室环境下语音识别准确率已经从2013年的87%提高到了2017年的97%,而在实际环境中,这个数字会降低到85%左右,因为实际环境中有大量的噪音、口音、声源远近等问题。在外呼机器人这个领域,短语音识别是一个难点,因为在缺少更多上下文信息的时候,语音识别很难确定你发的音和对应的字之间的关系,中文更是如此,因为中文是一个同音不同字的语言,还有音调的变化,比如我发一个音lao shi ,这在不同的语境下,可能代表这是一个教书育人的职业,在另外的语境下,可能代表这个人的性格很老实。
来自于技术方面的第二个挑战是多轮对话,人的自然语言从来都是含糊不清的,特别依赖上下文关系。比如说我想订一个房间, 什么位置?, 中关村附近,什么时间?,周六… …这个例子里面,关于订房间的信息是散落在多轮对话之间的。如何综合全面考虑上下文信息一直是学术界的一项挑战。
第三,人类的对话行为模型非常复杂。因为在外呼机器人场景下,人们期待的是和另一个人之间的交流而不是一台机器。研究显示,人们在和机器人对话的时候,会自然的放慢语速,发音会更清晰,也会用更加配合机器人的句式来交互。但是在和人沟通的场景中,人们的发音或更含糊,会在句子中省略很多字词,也会在句子中突然修改前面的对话信息,这些都给语音识别,语义理解造成了极大的困难。
最后,我们目前的外呼机器人大部分都还是播放提前录音,为了实现真正的人机语音对话系统,我们需要让机器能发出人的声音,这就是语音合成技术。但是要合成出人自然对话中的抑扬顿挫,并且骗过人是一件非常困难的事情,人的耳朵对于音频的敏感程度远超过人眼对图像的敏感程度,这也让语音合成这件事情的难度更高。
综上,外呼机器人是一个典型的技术驱动产品创新的项目,它的产品形态很简单,最重要的是核心技术的优化、发展和突破。
除了技术上的挑战之外,在业务层面外呼机器人的产品形态也存在着诸多风险。
我们今天大部分的外呼机器人都是以营销为主,如果外呼机器人普及而又没有加以限制的话,一般用户将不胜其扰,今天外呼机器人的接通率已经很低了,接下来的情况可能更糟糕。一方面用户被长期培养出来的习惯是只要是陌生电话就完全不接。另外国家也不会坐视不理,甚至可能出现一刀切的管理,让整个行业都遭受重创。
我们也在思考,如何能让这个产业持续发展?这里面的核心就是己所不欲勿施于人,把我们想象成客户,如果你正在开发的外呼机器人连自己都不想听的话,那你也不要给客户打了。 另外作为行业内部的人员也要自律,设定一些保证用户体验的规则并严格执行,比如对拨打电话频次、时间段、内容等的规定,行业内部需要形成共识。要主动寻求监管,配合国家和各级部门对于话术、录音的备案。最后我们要为客户创造价值,互联网广告刚刚兴起的时候,各种流量劫持,弹屏等让用户不堪其扰,但今天以千人千面为代表的更多定制化和更懂客户的服务及广告内容正在逐渐被大家所接受,广告主和用户之间的关系更加和谐。
机器人和人之间的行为规范
外呼机器人可能是人类历史上第一次,大规模的在不知情的情况下和机器进行对话,这是一种崭新的交流方式。人和人之间交流的默契和行为规范,是否仍然适合于人和机器交流呢?我们是否应该发展出一种新的礼貌规范来约束人和机器之间的交流,继而让人的感受更好呢?比如说是否要在对话的一开始就自报家门,让对方知道自己是机器人呢?或者是否至少通知对方这一通电话可能会被录音呢?我们再往下想,接下来我的手机上可能会安装一个人工智能小秘书,自动帮我把在通讯录上的电话放进来,然后自动帮我接听陌生来电,自动帮我记录对话内容,之后给我发一个会议纪要。再比如说可以像网站对待搜索引擎的检索一样,约定一个机制告诉对方,我不希望接听任何机器人来电,请帮我自动过滤等等。
语音机器人' target='_blank'>语音机器人家族
说到这里,我们谈的都是外呼机器人的问题,而外呼机器人不等于语音机器人,语音机器人的应用更加广泛。我们一起来看一下语音机器人家族的其它成员。
教练机器人:
在座席和客户沟通过程中,教练机器人会实时地给出对话的提示,包括阶段话题的顺序,问题的解答,客户画像的自动提取,实时质检,客户转化率或者满意度的评分。还记得我们最开始给出的那一个数据系统的发展阶段路线图吗?当时留了一个悬念说在语音系统中,什么是决策层面的产品形态呢?我这里告诉大家,是AI教练,它是决策层的产品,因为它在你对话的过程中,实时告诉你,应该说什么怎么说。虽然它还不能代替你说,但我们认为这个产品是外呼机器人发展的必由之路,因为机器可以在真实对话中学习人类说话的方式,让我们的外呼机器人越来越智能,能适应的情况越来越多。
陪练机器人:
外呼机器人的角度是模拟销售代表给客户打电话,陪练机器人的角度模拟客户,陪销售代表进行对练,适用于新人入职培训的场景。
实体机器人:
不难想象当包括国内的天猫、小米、京东等智能音箱,或者人形机器人变得越来越普及的时候,我们希望能够直接通过他们得到某项产品的服务。这个时候语音是很关键的一项技术。
人类七万年多前发明了语音,五千多年前发明了文字,语音是客户沟通第一平台。语音是最重要的沟通方式,无论是否是外呼,是否通过电话,语音作为一种沟通方式,都一定会长期存在,任何一家企业都应该有自己的语音智能系统和语音智能战略规划。
悟空话务电销电话机器人' target='_blank'>电话机器人