搜狗地图标注语音是汽车场景中最合理的交互方式
AI电话机器人免费使用 加微信:veteran88
防封电销卡免费获取 加微信:veteran0003
12月17日,搜狗地图标注总经理在世界年度盛典上共享了搜狗智能副驾这款语音交互产品开发历程与用户体会,
在看来,现在我们所触摸的所有交互方法中,只要语音才是在车内场景中最合理的交互方法,由于当你在开车的时分,你的手、眼都归于被占用的一个状况,想要安全驾驭就不能因而分神。
现在的轿车厂商与导航供货商在车内都有类似的处理方案,可是经过实践体会它们的产品并不能完全处理用户痛点,搜狗智能副驾的研制初衷正是围绕这些尚未被处理的痛点进行的。
传统形式的语音基本上是这样一个漏斗的模型。榜首级:语音辨认率。第二级:受限于语意了解的正确率。第三级:受限于查找的正确率。
搜狗智能副驾所着重的语音交互,并不是简略地用语音辨认把用户说的话简略翻译过来就完毕了,而是要经过后续一系列的语意、地图层面做一些剖析作业,终究给用户一个正确的反应成果。
以下是在 世界年度盛典上的讲演全文,略经编辑:
今日我想要介绍的搜狗智能副驾,这儿面有适当一部分技能其实跟同传也是相关的,也就是搜狗语音技能,搜狗在曩昔一年以来在AI领域里边所做的测验,即把语音辨认技能、语意了解技能和地图导航技能结合起来,在轿车场景中向用户供给内容处理方案。
在介绍搜狗智能副驾之前,先给我们看一下,我们所调查到的用户在车内的一个需求的状况。现在我们发现,用户在车内信息交互的需求,其实首要就是两类,一类是驾驭相关的,比方说导航、路况、沿途信息等,大约要占到92%。还有一类是互联网相关的,比方说听音乐、播送、新闻、聊微信等这些东西,用户在车内的信息交互需求,占比最高的首要就是这两类。
现在,用户的这种需求是怎样被满意的呢?在轿车场景里边,但凡用户想听歌、打电话的时分,轿车制造商都现已为用户供给了一些处理方案,可是曾经首要都是根据物理的这种按键或旋纽,很不便利,所以我们也注意到在最近的一两年里边,轿车制造商现已开端把这种语音辨认的技能引进到车内来。
语音交互毫无疑问是在车里边一个最合理的一种交互方法,由于究竟你在开车的时分,你的手跟、眼都是归于被占用的一个状况。
轿车厂商做出来的语音交互首要问题就是听不懂,你跟体系絮絮不休说了半天,体系只按它自己的逻辑去解说,你如果不按它的方法来输入指令的话,它就回绝合作你。
现在除了轿车厂商在供给这种语音交互的这种处理方案之外,互联网厂商不是也在做这些作业吗?有许多的互联网厂商现在现已开端在自己的车内的场景里,比方导航功能中开端植入这种语音交互的才干,互联网厂商现在做得怎样样?
导航供货商所供给的语音交互的表现首要所反应出来的问题其实就是说不清,我们知道语音交互它是个双向的概念,不光是你说的东西机器能听懂,一起机器也应该说人能听懂的东西,不能当人说完了之后,机器只管把成果给你列出来,然后让你再去从头挑选和交互,如果是这样一种交互方法的话,在车内毫无疑问是十分不安全的。
所以,我们总结下来就是,就现在来看,用户体会到的语音交互,要么就是听不懂,要不就是说不清,用户真实需求的语音交互是什么呢?它是需求一个天然的言语对话,可以听懂用户想要什么,可以像人一样地去讲出这个答案。下面我们看一下,我们以为真实的语音交互应该是什么样的。
这就是我们想为我们推出的搜狗智能副驾的一个初衷,我们希望真实能在车内,用户是以这样一种交互方法去跟体系打交道的,而我们这个产品实践现已在7月初的时分发布了,现在安卓和iPhone手机都可以下载搜狗地图标注,搜狗地图标注里边会有一个形式叫做智能副驾,进到这个形式之后就可以跟汪仔进行语音交互,你可以说出你的需求是什么,它对话的方法大约就是这样的。
你先唤醒它,比方你好汪仔,他就会问你要去哪儿,你说去奥森,它知道奥森是有南门跟北门的,于是乎它会说奥森有两个你去哪一个,是南门仍是北门。如果你说南门,终究它就会找到奥森的南门并且主动为你启动导航。
我们不要小看这个简略的进程,实践上这个进程背后是有十分复杂的技能的支撑,才干保证有这样一个杰出的体会的。在轿车上的一个智能帮手,如果想做到一个杰出的语音交互体会的话,我们以为有4点需求做到:
榜首个,听得对。这是最基本的,当用户说出一段话后可以正确地转译成文字。
第二个,听得懂。就是你光听对了不可,你得知道他想表达什么,什么意思。
第三个,可以说。帮用户查找到成果反应后,需求正确地把它表达出来。
第四个,要有相关十分丰富的常识,不然无法处理想要的问题。
我们来看一个实践的比如,比方说用户对体系说要去某个当地,体系会辨认到许多的可能性,进入到语意剖析环节,当我们把地图引进进来的时分,决策后会发现某个当地的概率更高,所以终究剖析下来用户应该想去这个当地。
我说这个比如是想跟我们说,在听得对这个环节,不是简略地用语音辨认把用户说的话简略翻译过来就完毕了,而是说你要经过后续的一系列的像语意、地图层面做的一些剖析的作业,然后你才干知道用户说的哪一个是对的。经过这个比如就能发现,我们经过语意和地图的纠错,使终究体系选出了正确的目的地。
像我们刚才在视频里看到的一些比如,比方你想在路上趁便加油、吃麦当劳等行为,现在在搜狗一个巨大的语意网络里边,现已可以听懂10万个类似像这样的语意途径,也就说你表达一种需求,你可能有不同的说法,在语意剖析引擎这边,它可以兼容许多种说法,现在我们整个的对话途径现已超过了10万个。
接下来我们来看看,比方说在传统语音交互里边,你说你要去首都机场的时分,它会说我给你找到5个目的地,我们的做法是直接精简成你要去哪个航站楼或者航班号(这样只要15个字),这种方法就是用户所能承受的十分天然的语音交互。
所有的这些可以听得懂,是建立在一个十分重要的基础上,我们对地图数据做了十分重要的重构,我们把这个称之为主子联系,我们大约可以挖掘出500多万的主子联系。
除了主子联系还有所谓的容器联系(比方说搜狗公司在搜狗网络大厦里边),还有许多的商圈地片,当你说你要去大钟寺的时分,不是简略给你导到大钟寺地铁站,而是问你要去大钟寺的什么当地,这些都是我们界说的叫做地图常识。
除了地图常识之外还有许多跨域的常识,像航班、洗车、车站等都是我们所谓的有常识的领域。传统形式的语音基本上是这样一个漏斗的模型:
榜首级:语音辨认率。
第二级:受限于语意了解的正确率。
第三级:受限于查找的正确率。
终究一个漏斗剩下来,会话的成功率只要68.4%,我们可能会疑问怎样榜首个环节语音辨认正确率只要80%,这是由于现在有许多的语音的辨认尽管都说自己的所谓字正确率可以到达90%几,可是你一旦把它变成一个语句的话,立刻迅速地辨认率就会下降下来。
而搜狗这边的做法是,每一级我们都会有一个纠错,都会根据后面的成果对前面进行反向纠错的进程。我们最终做下来的话,会话成功率可以做到90%,这个都是搜狗的自有技能。
搜狗这次所供给的智能副驾,中心要害点是在于所有的东西全部都是自己的中心技能,可以保证有最佳的用户体会,归于一个技能与体会的闭环。