据赵明介绍,作为智能音箱领域的头部厂商,亚马逊通过接入Alexa语音助手以连接其他硬件软件服务,在先发优势和技术壁垒下,已经形成一定业务体系。亚马逊具有深厚的电商基础,并在内容、硬件、平台、云计算、物流仓储等领域布局,通过智能音箱整合软件、硬件、平台及内容资源,进一步盘活电商资源。
亚马逊Alexa平台及云计算平台为打通多个服务链条奠定了基础,在硬件操作、软件应用及内容观看收听中的海量数据被有效收集并整理,实现内容与服务的个性化。赵明表示,亚马逊在中文语音识别方面缺少布局,目前没有进入中国市场,但其发展为中国市场提供了借鉴,多数厂商以Echo为对标,布局智能音箱。
但据赵明介绍,目前智能家居行业还处于整体发展的中前期,行业标准尚未形成,巨头之间难以统一的平台标准为智能家居的普及造成了巨大困难。目前的AI水平较为有限,很多智能家居实现了基本的AI功能,但都比较初级单一,用户使用体验并不理想。
此外,中科院自动化所研究员王金桥表示,中文语音交互存在更多特殊障碍:中文的方言和口音种类过多,交流非常困难,语义鸿沟难以跨越。市面上的智能音箱都‘傻乎乎’的,只能用来搜索和问答一些条条框框的问题,无法理解逻辑、上下文关系等,大家买回家玩几天,新鲜劲儿一过就闲置了。全国三百多家智能音箱厂商,没有一家赚钱的。王金桥说。
灵隆科技CEO魏强也曾对媒体表示,目前消费者普遍反馈智能音箱存在远场识别差、误唤醒率高、连续对话功能不稳定和语义理解能力差、音质不好等问题,看似火爆的智能音箱行业正在面临创新能力弱、产品体验差、内容和技能不足、用户认知度低等诸多挑战。
水平有限 仍是简单场景的人机交互
谷歌演示Duplex AI的过程引发了真实与否的争议:人们注意到,这些通话中的两位女性员工都没有在电话上提到自己公司的名称,另外这两个录音中也都没有环境噪音。不过谷歌并没有对是否编辑过电话录音的问题发表评论。
对于Duplex AI的表现,王金桥表示:这只是展示了一个效果,不能说机器通过了图灵测试,也不代表理论上的突破。况且真实性没有验证。如果是真实的,那确实是先进的自然语言理解,这说明大家都在往自然语言处理的方向努力。
思必驰副总裁、语音交互科学家初敏表达了类似的观点。这个预约的过程难度不大,是一个简单场景的人机交互。只是角色置换了一下,不是我们常见的‘人问机器’,而是‘机器问人’,引发了大家的热议。初敏说。
初敏表示,谷歌展示的机器预约餐厅、发廊一定是可以实现的,没有被对方听出来说明语音合成的效果不错,但整体来看,全程没有展现有挑战性的问题——如多任务切换、跨场景、噪音、上下文逻辑理解等。她同样表达了对视频真实性的怀疑:餐厅听起来应该是乱七八糟的,但视频中没有背景噪音,所以不排除表演的可能。
要想质变 需要自然语言处理技术突破
自然语言处理是语音交互的核心技术,也是三十年来几乎没有突破的痛点。通俗来说,这项技术就是让机器理解人。据王金桥介绍,自然语言处理的核心是理解,希望机器能理解人的语言和目的。但每个人都是个性化的,说话的轻重缓急、重音位置,看到夕阳西下时或开心或伤感的个人感受,这些都是目前的机器无法理解的。尤其是在中文语境下,常见的一语双关、倒装、句式简化等,人有时候都理解不了,对机器来说更是难上加难。
初敏表示,在语音交互背后,是语音识别、自然语言理解、对话管理、自然语言生成等诸多环节,各环节充分配合才能实现良好的交互效果。相比于谷歌展示的预约,我们已经可以处理更复杂的交互,只是效果没那么好。初敏说。
机器的认知推理和理解是一个系统的处理工程,是各种复杂算法的结合,不是单项技术能解决的。王金桥表示。目前比较可行的限定场景下的自然语言处理,比如儿童陪伴、学科细分的语料库,可以实现智能化交互。中国科学院院士谭铁牛也在两院院士大会期间谈到人工智能正处在从不能用到可以用的技术拐点,距离很好用还有诸多瓶颈。像‘那辆白车是黑车’‘能穿多少是多少’一类的表述,机器无法准确理解和翻译。谭铁牛说。
语言交互是智能音箱的核心功能。智能音箱的销量剧增,大量的语音交互会带来多样化的数据样本,目前研究界都在试图突破自然语言处理的难关,虽然从事这项研究的人比以前多很多,研究条件也很好,但理论的瓶颈、语言理解的语义鸿沟问题,不是一时半会能解决的。王金桥说。