科大讯飞吴晓如：语音技术助力更智能更安全的新一代呼叫中心-巨人网络通讯

科大讯飞吴晓如：语音技术助力更智能更安全的新一代呼叫中心

2009/04/15

　　CTI论坛(ctiforum)04月15日消息: 2009年4月14日至15日，CTI论坛主办2009中国呼叫中心及企业通信大会在北京国际会议中心隆重召开，会议展开三十多场精彩纷呈的演讲，邀请了一批业界知名专家在会上发表演说，以下是主题演讲现场图文报道：

安徽科大讯飞信息科技股份有限公司吴晓如　　这个是我们叫做呼叫导航的系统，大家可以看到这个下拉菜单是用户希望得到的服务，但是我们这个服务列得不是很全。如果我们希望得到一项服务，我家的煤气费没钱了，我想交一点煤气费。大家可以看到，我可以以比较自由的方式，告诉IVR一件什么事情呢？就是我家的媒体费没钱了，我要交煤气费。在以前传统的IVR的按键上，你可能需要按3、4次，但是现在用户只需要说他的需求。　　我们再来看一个。 (演讲人演示,说:"我想把定期的储蓄转成活期的", 菜单自动跳转到:定期转活期) 　　我想把定期的储蓄转成活期的。这个演示实际上是给大家介绍一个什么叫做呼叫导航，与之前的基于命令的识别有什么差别。它可以给我们的呼叫中心起到一个什么帮助。　　在这种基于自由说话的呼叫导航中，我们的用户不用这么痛苦，必须记住我们的菜单名称。我们在设计我们的菜单的时候，我们整个呼叫中心的管理者，也不需要设计一个非常复杂的菜单。实际说准确的呼叫导航是怎么做到的呢？叫做特定语音的语音识别，如果要语音识别，对于识别每一个字是很困难的，但是对于我们银行的语音菜单是很简单的。即使1、2个字发生的困难，对于我们最后的解析也可以让它理解我们最后用户的需求是什么。所以，语音导航用户只需要做什么事情呢？只需要说说你的需求。　　我们说的呼叫中心，刚才说怎么让我们的呼叫中心变得更加聪明。第二个问题是呼叫中心还面临一个挑战，当前的呼叫中心转成成本中心，在一些用户转向呼叫中心做一些实际业务的时候，如何让我们的呼叫中心变得更加安全。以我们银行的呼叫中心，电话银行是大家非常信任的业务的手段，但是有很多安全须知，千万不要泄露你的帐号、密码，如果你泄露了你可能会很痛苦，你的财产会受到损失。对于这方面，我们的语音技术能不能做一些工作，使我们的呼叫中心变得更加安全呢？目前的语音识别可以使我们的呼叫中心在风险控制方面得到很大的帮助。　　如果我们的座席人员了解他家里面每一个家人的声音那么熟悉去了解用户的声音，对于座席人员有点难，几乎不可能完成。但是语音识别可以做到，实际上我们对于我们的用户和座席，在说话的过程当中我们可以实时监控。如果发现当前的通话是一个可疑的对话，可以告知座席，座席可以采取银行要求他采取的步骤，这样可以加强我们的风险控制。　　对于有一些用户，我们实际上在他做这个业务的过程中，我们可以采用一些，吸入说声纹系统，对于他的声纹进行实时的监控，如果没有声纹识别，我们可以提醒这个用户提高安全级别。　　声纹识别是辨别说话人身份的一项技术，通话人说的可以是特定的内容，也可以说一些任意无关的内容。　　其中两个最关键的技术，一个是声纹确认，比如说这个用户是某某帐号的声纹，他说话的时候可以跟语音库里的声音进行对照。开始我不知道你这个用户是谁，你进来之后我看你是不是属于特殊的群体，比如说是我们银行需要关注的黑名单。这样的话，这个人在通话的过程中，我们可以和目标声纹库里的声纹模板进行匹配。如果是可疑分子，我们要通知银行注意这个业务当中有风险。　　实际上大家对于语音识别前期也在关注，但是我们觉得一个成功的语音识别有很多的核心技术。我们不但针对命令词，而且对于连续的语音也可以识别，而且我们语音识别可以有很好的排除干扰的能力。同时，我们的语音识别应该有语义解析，正确理解一个人说话的目的。　　语音识别在实际的应用中，它会面临不同的口音、不同的应用环境，需要我们对使用中大规模的语音数据通过语音模型进行训练，使我们可以排除不同的噪音。　　实际上，所有的语音识别的技术都是基于统计的。如果我们了解过不同的口音、不同的信道地之后就可以很好地处理这些不同的数据，一些不同口音的影响。　　科大讯飞我们在全国建了4个联合实验室，在中国科技大学、清华大学、社科院语言所、国家普通话测试站中心，最后会整合成我们最后的语音合成、语音识别、声纹识别等等。　　另外，对于我们相关很重要的处理语音识别所需要的口音、信道，目前我们在全国省级电信运营商部署的音乐搜索等大规模语音识别业务已超过50个，覆盖不同地域等，使我们的语音识别可以应用于不同的环境。　　自助式的语音服务之前一直是按键加录音，TTS技术的出现，使我们的语音呼叫是按键+TTS。我们语音导航可以进入ASR&TTS，用户的需求不但可以通过3键和9键。　　我们科大讯飞是语音技术领域唯一的国家863计划产业化基地、国家规划布局内重点软件企业、国家级企业技术中心。中国语音市场占有率最高达到了70%，同时我们代表工信部制定语音技术的国家标准，目前我们有700人左右，设有博士后的工作站在全国有4个联合实验室，公司是在去年的5月份在深交所正式发行上市。　　科大讯飞的中文语音合成技术，在理历届的国内、国际的评测中都名列第一。2006年和2008年我们参加了全球英文语音技术合成大赛，我们也连续三年蝉联了第一名。在这里，我简单地把我们的语音合成技术，简单地做一个演示。　　同时，我们的语音合成可以提供不同的音乐和语种。目前，我们的音乐合成技术首先整合了我们06到08年三年比赛的成果，同时我们的产品可以支持各种主流的语种，同时可以支持不同的方言音色，合成系统可以有男女老少各种因素供我们用户选择。　　为了使我们相关的产品可以在主流行业有更好的效果，我们针对像电信、金融等一些主流的行业进行专门的优化，可以提供专业的优化版本。同时，我们的系统还提供了多种实用的特性，它不仅仅是是文本转语音，还可以进行音频的管理，可以进行日志的管理和动态的重启。　　比如说你分散式部署IVR的系统，你可以把所有的提示音通过我们TTS的音频管理进行统一的安排，这样各地的IVR的服务器，可以通过FTP、HTTP的格式进行转换。　　声纹识别目前在国际上最有名的技术评测是美国的国家标准技术研究院，每年会举行一次大规模的声纹识别大赛。科达讯飞在2008年我们参加了这次评测，这次评测包含了国际上像MIT和斯坦福参加的比赛，我们取得了第一名。这有一个识别错误里，如果有100个人想冒充别人，我发生错误的是3个，我可以抓住97个。这次比赛也表明了我们科大讯飞在识别方向上我们是国际领先。　　目前，我们的语音识别除了目前已经在各地电信广泛音乐搜索中所使用的命令识别，你一说一个歌曲的名称我就可以帮你下载下来，我们目前有成熟的呼叫导航，可以进行语义的解析，同时我们可以提供相关的语音搜索和检索。以后有大量的音视频的呼叫，怎么管理，我们可以制定一些语音的标签，使我们搜索的时候更加方便。　　实际上我们说了很多不同的语音服务的模块，听上去很多，但是应用起来非常方便。　　我们有多种的语音合成，多种的语音识别，我们的声纹识别引擎等等。所有这些我们都可以通过统一的网络平台技术封装。这种封装既可以通过之前各个厂商非常熟悉的接口形式进行封装，也可以通过最新的基于SIP的、MRCP的服务进行统一的管理。用户无论使用什么引擎都可以得到我们的语音管理的服务。　　目前我们这种平台已经可以支持华为、Avaya、思科等众多的平台，可以支持众多主流的操作系统。我们科大讯飞有着非常完备的研发和质量体系，早在2006年的12月份我们就通过了CMMI L4评估认证，目前我们也是首个国家的标准试点基地。　　目前，我们在全国24个主要的城市设有子公司和办事处，可以为我们所有的合作伙伴和用户提供非常完备的技术支持和服务。　　科大讯飞在去年5月份上市以后，也是成立了我国第一家以语音技术为主要产业化方向的上市公司。在当前比较恶劣的经济环境下，科大讯飞受到了股市和分析师非常好的评价，去年11月份开始我们中小版上升了60%，我们大概上升了140%。我们现在的股价大概维持在30多元。其中股价只是很表面的表现，最主要的原因是各个行业的分析师，对于语音技术的水平，以及语音技术各个行业的广泛应用，表示高度的认可。我们也希望我们不断提供最优的语音技术，我们期待和我们的产业、呼叫中心相关的产业能够合作共赢、共同发展。我的介绍就到这里，谢谢大家！　　本文根据CTI论坛主办的2009中国呼叫中心及企业通信大会会议记录整理，转载请注明出处！

CTI论坛报道

上一篇：承孝强：HSIPCC（恒生IPCC）领跑中国IP呼叫中心
下一篇：FDS陶君：CIC客户互动中心-新一代呼入呼出混合式IP呼叫中心