智能语音机器人今后的发展方向
到目前为止,智能语音机器人【《智能语音机器人》是一款智能口语学习软件。】这一产品大约经历了三代人。第一代,以 IVR为主(Interactive Voice Response,也就是交互式语音应答),大家以前都接到过银行或客户服务电话。例如,在一句开场白之后,让您选择:按下一或二键,相当于第一代交互机器人的操作方式。在2017年至2019年的两到三年内,随着深度学习算法的迅速普及和发展,实时对话机器人将会出现。电话那头的顾客可能感觉不到什么特别明显的东西,但细听的话也能听到是机器人。每个人都会接到一些电话,聊天中才发现这是一个机器人。这类机器人一般对话能力相对比较简单,一般聊天几轮或30秒左右就结束,只做简单的任务。直到今天,未来几年都是下一代机器人,以前更多的还是要学习人类的能力,而现在,下一代机器人主要是做决定。智能机器人想要工作,主要从三个方面来学习人类的能力。首先是语言。一般情况下,任何场景下机器人使用的语言,首先都要有人工,客户服务中心积累语料,正常的人和用户交谈,看他怎么说话。无论客户服务、电销还是其他场景,人工客服和用户如何交谈,都是聊天的内容,说话的方式。其次是声音,机器人的上代产品更多地使用了 TTS【8" http-equiv="Content-Type"/> 】 (Text To Speech)语音合成【语音合成是通过机械的、电子的方法产生人造语音的技术。】技术。事实上,里有各种各样的智能音响,你去问问题,它在为你播放东西的时候,就是在进行语音合成,你可以听出合成的效果。里面的一些声音,语调,音色和真实的人还是有些不同的。如今,市场上所有的语音合成,包括国内的中文【中文(Chinese),字面意思是中国文字(特指汉字),广泛意思是中国语言文字(包括少数民族语言文学)。】语音合成,只要听得细一点就能听到。第一,语音合成的声音多会比较平坦。第二,里面没有情绪,很多情绪都听不见。因此,下一代机器人声音必须更接近于人工音效,或使人工音效变平。关键在于做决定,因为人们在对话中,除了听和说这些能力外,大脑还会理解对方想要表达什么。就像另一个人说的话,我心里一定会想,他说的话到底是什么意思。在我了解这个句子的意思后,我还会考虑怎样回答他。当我回答他的问题和意图时,我一定会带着自己的目的。根据我的目的,脑子里想一个字,想完了,这个字就会说出来。实际上是这样的一个过程。制作一个机器人,首先要了解过去的人如何与用户交谈。在过去的几年里,每个人的决策都做得很简单,后台人工通过拖拽的方式,配上一段对话的逻辑出来。但这完全是基于人的体验,如果用户表达的内容不在逻辑圈内,跳出来,机器人就不知道该如何回答。从后面看,智能语音机器人做出决定的能力跟在人类后面,可能是10年,20年,甚至更久。事实上,从现在起,我们就要采取行动了。