采访到北京捷通华声语音技术有限公司(以下简称捷通华声)总经理武卫东先生,是在位于中关村软件园的捷通华声总部。11月28日恰逢捷通华声2012灵云发布会,由于武总忙于处理 灵云发布会事务,本打算缩短采访时间,可随着交谈的深入,时间却在不知不觉中延长了。
上图为:北京捷通华声语音技术有限公司总经理武卫东
与其说是一次专访,更确切地说,是武总带给我的一场关于灵云、关于智能人机交互(HCI)、关于客户需求、关于竞争等的精彩讲座。
从开始到结束的整个采访过程中,武总的健谈、热情洋溢、声情并茂一直在感染着我。当然,感染我的并不仅仅是这些,确切地说,更多的应该是他传递出的一种务实的个人魅力,以及整个捷通华声公司专注技术、执着创新的企业精神。
CTI论坛记者:武总,请您谈一下智能人机交互(HCI)技术在产业中的发展。
武卫东:人与机器的交互经历键盘时代、鼠标时代、触控时代,现在已经进入到了人机交互时代。实际上智能人机交互(HCI)技术方面很早就已经有研究了,比如说我们的语音合成,90年代末和现在所展现出来的效果有着天壤之别,那个时候就是一直在做研究,但并未真正实用化。每一项技术都会经历一个发展和成熟的过程,包括OCR、手写、语音并不是一开始就做的很成熟。
随着互联网、移动互联网、云计算以及3G技术、甚至是4G LTE的发展,这些技术随着硬件的发展而发展,随着整个产业的发展而发展。所以有一种观点认为,用硬件带动软件,也有一种观点是以软件促进硬件。只不过随着整个产业的发展和时代的变迁,人们的需求越来越还原到自然感官状态。其实隐藏在这种发展的背后,是人们对需求的渴望。
人机交互技术越来越贴近自然,这里的自然实际上是人的一些本能反应,比如说我们写东西用手、说话用嘴、听东西用耳朵、看东西用眼睛,甚至现在发展到通过脑波来知道你心里所想。脑波识别在一些尖端领域已经开始应用,相信这种技术在不远的将来也会像目前的语音交互、图形图像、手写识别、OCR、包括涉及到自然语言处理的技术,进入人们的生活当中。
因此,我认为智能人机交互(HCI)技术本身是没有止境的,而现在的技术还要不断地向前发展,所以面对这样一项技术、这样一个领域,我们必须要做到专注。要有科学的精神、科研的心态。
CTI论坛记者:请问灵云的应用情况及发展前景如何?
武卫东:灵云是全球第一个全方位的智能人机交互(HCI)感知云。目前灵云主要有语音合成(TTS)、语音识别(ASR)、手写识别(HWR)、光学字符识别(OCR)、人工智能(AI)这五项核心技术。通过灵云,可以使任何一台连接了互联网的PC、手机或其他嵌入式设备具备语音合成、语音识别、图像识别、手写识别和自动翻译的功能,简单的说就是让机器能说话、能听懂人的话、能阅读图片以及能理解人写的字,从而使设备具有基本的人机交互能力。
捷通华声是一个比较务实、扎实的公司,我们希望把灵云能力向各个行业输出,现已与数千家企业合作,不仅包括政府、金融、能源、教育、医疗、交通以及电信运营商等传统行业领域的客户,更有智能家电、智能家居、互联网及移动互联网、智慧城市等新兴领域的用户,大到服务成千上万用户的平台,小到个人开发者,捷通华声的智能人机交互(HCI)技术在中国已经无处不在,默默服务数以亿计的大众。
目前,这些智能人机交互(HCI)能力已经在各个行业里显现出需求的价值,只是过去提供的都是单一的能力,而灵云提供的是全方位、多能力的云服务平台,将各项成熟的人机交互技术整合到我们的平台中,通过垂直的输出能力让大家使用。我们有一个观点就是:灵云是大家的,智能人机交互(HCI)技术是人类所共享的,而我们把它开发整理好供大家使用。
我们也会在某些方面做一些自己应用,其中包括示范性应用以及实际结合用户需求的应用。
后续我们还会与合作伙伴共同推出人脸识别、手势识别、指纹识别、虹膜识别、声纹识别等等识别,从而使灵云更加丰富、更加全方位,这也是我们的目标。
在提供多能力方面,我们更多考虑的是用户需求,提倡的是技术服务生活。所到之处,都能听到捷通华声的声音,比如在机场、高铁、医院等地方,能够给老百姓的生活带来便利是我们最大的欣慰。
CTI论坛记者:请问灵云在移动互联网领域有哪些应用和布局?
灵云推出以后,我们会面向移动互联网去做一些推广,主要有两个方向。
武卫东:首先,是和电信运营商合作。现在灵云和中国电信EMP平台进行了无缝衔接,已经面向个人开发者及中小企业开放,大家可以调用灵云的能力,去开发一些移动终端包括手机端的的应用。
我举一个例子,有一位开发者在电信的EMP平台上开发了一项手机终端幼儿教学的业务,非常具有创新性,其中用到灵云的三项能力,这个非常具有创新能力的应用一下子就获得多项大奖。目前,已有两款中小企业开发应用使用了灵云能力,并已形成商务合作。其中一个是与导航有关的应用,另外一个是关于出租车叫车系统的应用。
另外,我们自身希望能够调用灵云能力去开发一些应用产品,比如说手机助手小唐龙。同时,我们已经开展了一些智能领域的合作,比如说智能电视、车内服务的客服平台上,还有就是一些客服,比如运营商的一些客服上面,简单地说就是可以通过小唐龙问话费、流量、运营商的信息、活动,类似于客服的性质。
灵云在部署形式上有公有云和私有云两种形式,使用上分为免费和授权两种。公有云,可以为每个在公有云注册的用户进行单位时间内有限流量和有限次数的免费服务,以及提高流量和次数上限的授权付费服务。灵云私有云,是专门为大客户定制的产品,可部署在用户的现场网络中,并根据用户的使用需求,定制嵌入式模块,例如嵌入自动服务设备、OA系统和邮箱系统等。