人工智能' target='_blank'>人工智能对话是人工智能的一个子领域,专注于在人与计算机之间生成自然无缝对接的对话。近几年,像亚马逊Echo和谷歌Home这样的语音助理的发展速度,如同火箭一般迅速,估计在2018年就有接近1亿个设备在家庭中使用,不仅如此,我们也已经在自动语音识别(ASR)、从文本到语音(TTS)和意图识别等方面取得了惊人的进步。
但是距离实现科幻小说中所描述的人机之间进行的流畅对话,我们仍然有很长一段路要走。在未来十年,我们应该看到这些关键进展,它们将让我们更接近这一长期愿景。
超越机器学习的新工具
在过去几年里,机器学习,尤其是深度学习,已经成为了人工智能领域中应用非常广泛的技术。它已经在人脸识别、语音识别和对象识别等领域取得了重大进展,因此许多人认为它将解决人工智能对话的所有问题。然而,实际上它只是我们工具箱中一个有价值的工具。我们需要其他技术来管理有效人机对话中的各个方面。
机器学习特别适合解决在大数据库中查找模式的问题,或者就像图灵获得者JudeaPearl说的那样,机器学习实际上是解决曲线拟合的问题。人工智能对话中有几个问题都很好地反映了这类解决方案,如语音识别和语音合成。该技术也已应用于意图识别(将人类语言的文本语句转换成用户意图或愿望的高级描述)并取得了很大成功,尽管使用此技术捕获具有固定形态或语义敏感而模棱两可的自然语言时存在一定的局限性。
然而,在计算机对话中确实存在一些不太适合机器学习的问题。人机对话由两部分组成:
自然语言理解(NLU)——理解用户所说的话
自然语言生成(NLG)——为用户制定合理的话术回应
近来,大部分的注意力都集中在了第一部分,但是其中仍然存在很多挑战,而这些不适合机器学习的原因在于话术回应生成不仅仅是收集和分析大量数据的产物。在未来几年,这种持续、有状态的对话挑战仍然需要更多地关注NLG和对话管理部分的问题。
更高保真度的体验
现在的对话经验可能是非常简单且具有局限性的。为了超越这些局限,我们需要支持高保真的对话。实现这一目标有几个方面,包括:
广泛而深入的对话。
现在的大多数对话要么宽泛而浅薄(例如,"几点了?"=>"现在早上9点45分"),或者是狭隘但有深意(例如,在问答游戏中多回合对话)。为了超越这些有限的经验,我们需要进入一个广泛而深刻的对话世界。这就需要更好的理解用户输入的上下文意思,这样才能作出适当的回应,对对话的状态进行跟踪,具有在超出当前技术局限性的情况下也能一次转换成几百个意图的能力。
个性化。
在两个人之间的自然对话中,每一个人通常都会借鉴先前与其他谈话者的经验来根据对方作出相对应的回答。不这样做的计算机对话则往往会让人感觉不自然,甚至让人讨厌。从长远来看,解决这个问题需要解决诸如对说话人的识别之类的挑战,以便让计算机知道你是谁,并且可以对你和其他人做出不同的反应。另一个方面是跟踪以前对话的状态,并能够随着时间的推移做出不同的回应,比如了解特定用户的偏好或风格。
多模式输入和输出。
目前,人工智能对话的重点是理解语音输入和生成语音应答。但是,用户可以以多种不同的方式提供输入,并且输出也可以以不同的形式生成。例如,用户除了提供语音输入外,还可以在屏幕上按下按钮,或者情绪分析可用于为计算机提供能做出反应的情绪级输入,同时支持多个输入或输出会带来一系列需要考虑的复杂性。例如,如果用户在按下是按钮时说不是,系统应该怎么做?
在循环中为人类找到正确的角色
作为技术人员,我们常常被驱使着试图用计算机来解决每一个问题。然而,需要注意的是,有些领域,如游戏、娱乐或销售和营销,总是希望对计算机回应的声音和个性进行巧妙的设计来匹配它们的品牌。此外,已经注意到的是,试图生成全自动自然语言生成可能不是最好的,因为最自然的人类对话不是重复很多以前对话的结果,而是通过考虑当前上下文而形成的。
今天,这些创造性的输入必然还处于人类写作层面,系统可以识别每个上下文的意思,并定义对话应该如何进入下一个话题环节。这是目前几乎所有计算机对话的工作方式。我们似乎不太可能在未来几年完全消除这种循环,因此当我们展望未来时,我们将希望建立支持更具可扩展性和广泛机制的方法来定义一个人的声音和音调。例如,可以在更抽象的层面上定义其关键特征。
电视剧《西部世界》很好地展现了这种世界观。在反应和行为方面,人工的宿主显然是非常复杂的,它们通常与真实的人类难以区分。然而,这是通过叙事部门的许多作者来实现的,他们定义了每个人的内容以及他们的各种高级个性特征。创意设计师可以使用强大的视觉创作工具来调整这些因素。
在未来的几年里,这一领域将受益于灵活的创作工具的开发,以类似于Photoshop等工具赋予艺术家或FinalCutPro授权视频创作者一样。
结合更丰富的语言生成和对话管理系统工具,更高保真度的体验以及更好地在循环中使用人类将产生更好的内容,并最终将我们带入一个充满愉快和具有连续性的计算机对话体验的世界。