《长江七号》是我女儿非常喜欢的一部电影,记得当时带她去看这部影片时她才4岁多,现在她6岁了,仍然还经常提起这部片子以及充满了灵性、智慧、童趣的“小七”。
在我们看来,“小七”就是一部智能小机器,可以说话,可以与人交流,当然,经过电影作者的想象、加工,给它赋予人类的感情,所以也成就了“小七”的辉煌。
“小七”在捷通华声董事长张连毅先生看来,只是人机交互技术HCI功能实现的一小步,张连毅认为:人与机器的沟通将越来越简单,让机器与人的交流像人与人一样自然是他的理想。
近日,CTI论坛记者获得与捷通华声董事长张连毅先生交流的机会,将这位HCI技术应用的推动者在HCI领域的理念与梦想与大家分享。
图:捷通华声董事长张连毅先生在办公室接受CTI论坛记者采访
CTI论坛记者:捷通华声于12月8日推出全球第一个全方位人机交互的感知云--灵云,这与以前捷通华声经常谈到的智能人机交互技术HCI有哪些传承与区别?
张连毅:捷通华声公司多年来一直致力于智能人机交互技术的研究,也就是HCI。其实HCI技术投入大、见效慢,只有一些很大的企业,像IBM、微软、英特尔才能够独立投入,而捷通华声是民营企业,这么多年坚持下来其实是很不容易的。
灵云的推出,可以说是 “十年磨一剑”,早在1998年底,捷通华声在公司刚创建时,推出新产品“录易”,就具备了人机交互的基本雏形,具备听、说等功能,遗憾的是当年的品牌知名度并没有打响,原因有很多,一是当时的捷通华声还只是一家刚刚诞生的婴儿般的企业,并没有雄厚资金去做相应的推广,而当时的汉王科技等企业推出的手写板产品已经热销,所以捷通华声的“录易”就被淹没了。
但就现在来看,“录易”都不是一款过时的产品,“录易”后期转换了一种方式,以OEM、ODM的方式继续履行着他的使命。
我刚才说到灵云是 “十年磨一剑”,因为我们认为,无论是手写录入、语音录入、还是扫描识别,都是一种录入手段,人与机器的交互,是全方位、多手段的,无论用哪种形式,让机器能够说、能够听、能够感知人的语言,这就是HCI的使命。而今天,捷通华声经过多年对HCI的研究:通过手写,让机器能认识人的书写;通过语音合成,让机器能象人一样说话;通过语音识别,让机器能听懂;通过语音翻译,让机器能象人一样思考。
这些功能以前捷通华声,包括市场上其他的企业只能够一项项的单独实现,灵云则通过相应的技术让这些功能集中于一起,对功能加以整合,全方位提供给用户多种人机交互的体验。
CTI论坛记者:灵云可以用语音、手写、拍照,甚至可使用脑波识别等智能手段来操作、感知手机、计算机等数字设备的网络云服务,这是如何做到的呢?
张连毅:人机交互一直是人们所期待的,人类希望机器象人一样做基本的思考,象人一样更加协调,所以,在技术形成上我们赋予机器“大脑”的功能。
捷通华声依照多年来对自然语言的理解,引入“神经元”概念,比如让机器判断语音、语气、语境,象人一样具备简单的思考功能。
刚才我也提到过,人机交互的方式是多种多样的,不应该有局限,应不拘一格,无论是语音、手写、拍照、手势,都是人与机器交互的方式,我们对这些交互方式在技术上加以整合、集结,让他们同时具备上述功能,而不是以前的某一种单一方式,可以说这是一种突破,工程师付出了很大的努力。
图:捷通华声董事长张连毅先生 CTI论坛记者:捷通华声对灵云准备采取哪些推广模式?合作伙伴可以做些什么?
张连毅:在回答这个问题之前,我想阐述一下我们的合作理念,这个理念前几天我在中国手机产业大会上也提到过。举个例子,比如乔布斯的苹果公司,首先我本人非常佩服乔布斯,他为触控技术乃至整个人类计算机和手机产业做出的贡献无人能超越。但是我认为很少有开发者或者手机制造厂商能真正从产业、从苹果的APPStore获得利益,所以我支持Android,因为Android是开放,是分享,是每一个人都可以用的。
另外企业也要做好自己的定位,比如作为大学,它的定位就是培养人才。捷通以前是语音、手写领域技术商,现在是HCI方案提供商。而人与机器的交互可以说是无所不在,捷通华声作为HCI方案提供商,我们提供方案,培养开发者,让成千上万的开放者集结多种智慧,来促进HCI技术多种多样的应用。总之,捷通华声将辅助所有的合作伙伴、支持各种合作伙伴将HCI引进到他们擅长的领域。
所以,捷通华声今后的推广也将以合作为主,开放、共享,与合作伙伴共同合作、共同分享。
CTI论坛记者:您怎么评估HCI市场规模及应用趋势?
张连毅:我认为HCI只是一个时代的开始,前途不可限量,但不会象互联网及移动互联网有那么多的泡沫。并且我个人认为,对HCI整个产业并不适宜用一个具体的数字来评估其发展的规模。HCI与云计算技术的结合,则是宣告了人机交互时代的来临。
同时,HCI也不会有什么突然的爆发式的增长,因为HCI技术是每天都在成长,探讨研究机器应用HCI技术就象探讨人自身一样,本身有一个慢慢探索的过程。比如人类面临的一些不治之症,如癌症,可能长久以来一直就伴随着人类,但近代才开始认识到有这个疾病存在,到目前为止也还没有克服这个疾病的良效药,也就是说,我们人类还远没有真正彻底地了解我们自己。所以说,探索HCI技术就象探索人自身一样有个过程,至少要经历从理解----接受----推动----宽容----发展的阶段。所以从这个角度上讲,我们要以包容的态度来理解HCI在应用发展中产生的问题。
CTI论坛记者:捷通华声成立于2000年10月,2001年推出中文语音合成技术,后续推出中文语音识别技术,可以说,这也折射了中国语音技术的发展历史。那么,目前捷通华声语音的应用领域有哪些?可以举一些案例进行分享;
张连毅:语音应用领域应该从两个方面来统计,一是受众人群,从这个角度来讲,语音应用其实是无处不在的,语音是服务的技术,尤其是语音合成技术在人群中受众很高,但语音识别需要在特定的领域中保证识别率,比如银行业务,肯定不会牵涉天气预报的内容,受众相对语音合成会少一些。捷通华声过去十年中,作为语音技术提供商,涵盖了所有的产业、行业、包括个人用户。比如呼叫中心、导航、教育、手机中的各种应用、桌面办公应用等,有无数的人已经享受到语音技术的服务。
另一种统计方法是销售额,语音技术市场包括语音合成及语音识别,基本是五五分成的状况,从受众人群讲,语音合成用户高于语音识别用户数,但单价较语音识别低一些,所以从销售额统计来看相差不大。
捷通华声语音技术的企业终端用户分布于银行、交通等所有重要领域,如中国农业银行、中国银行、中国建设银行、交通银行、中国高铁、世博会都是我们的客户或采用捷通的语音技术。
CTI论坛记者:目前国际国内已经有一些语音方面的厂商也有相关的语音部署,那么捷通华声的语音技术专有技术还是引进技术?
张连毅:捷通华声在创立之初就有自己的独立技术,如语音合成技术,手写识别技术,我们找到两个在我国非常杰出的在语音领域研究多年的科学家作为公司创业的合作者,帮助指导我们研发。灵云中最核心的几项技术均是捷通华声自主知识产权的核心技术。当然,灵云离不开HCI同行的支持,因此我们也非常注意加强国内、国际间的企业与研究单位的合作。
CTI论坛记者:您认为中国HCI竞争格局是怎样的?
张连毅:捷通华声在推出每一个产品技术时,都会问问它能给产业、给社会带来什么?而不是去先炒概念,我们对待每一个产品都当成新生婴儿一般,不过多宣传自己,也从来不吃独食,更不自称是龙头老大。灵云是国内乃至国际上第一个感知云,也就是第一个HCI网络云服务,目前只有合作伙伴,没有竞争对手,但将来是一定会有的。
当然,在过去较长一段时间,捷通华声在HCI其中一些技术的局部领域一直受到同行业竞争对手的打压,包括现在也是,但经过多次几乎是恶性的竞争,我意识到:HCI要发展,捷通要发展,不是通过仅与其中一两个领域中的竞争对手争胜负,争赢某一个单子决定的。要更多依靠大众对HCI知识的了解,HCI技术要服务大众,就要靠所有产业链的企业精诚合作,只要这样HCI 产业才会真正发展。即使竞争也是良性竞争,不能失去产业发展的责任与越过商业规则的底线。
捷通华声正是因为有了对HCI产业的全新理解,有了国内所有的合作企业、用户对我们多年的理解与支持,才有了灵云的诞生,因此我们也才敢说:灵云是大家的,灵云是中国的!
CTI论坛记者:非常感谢您接受我们的采访,祝您工作愉快!也祝愿中国的HCI产业更加蓬勃发展!因为我们每一个人都身处其中!
张连毅简介:
1989年获得清华大学环境工程系学士学位。1992年,与清华大学吴佑寿、丁晓清教授合作,推进汉字印刷体识别系统(OCR)商品化进程。1992年底至1998年6月赴美学习、工作。1998年8月归国创建北京捷通软件技术有限公司,2000年与吕士楠、顾小凤教授共同创建北京捷通华声语音技术有限公司。
发展中,坚持“开发有价值的产品,培养有价值的人,创建有价值的企业”,专注发展中文语音合成技术,在中文语音技术领域与国内外企业展开力量悬殊的激烈竞争中,最终捷通华声不但赢得了技术、市场,也赢得了国际语音界的尊重。
捷通华声取得立足中文语音技术市场之后,提出以“技术为核心,服务为己任,技术服务生活”的发展新思路,领导企业全面整和语音、手写等智能人机交互技术(HCI)力量,2011年,在国际云服务领域推出首个感知云—灵云,带领捷通华声进入企业规模化发展的全新阶段。
声明:CTI论坛(CTiforum)版权作品,未经CTiforum书面授权,严禁转载,违者将被追究法律责任。
CTI论坛报道