CTI论坛(ctiforum.com)(编译/老秦):也许你一直在考虑在你的业务中使用智能虚拟助理(IVA)。您希望自动化客户服务,帮助您的客户在您的网站上找到他们想要的内容,或者为您的员工提供工具。在任何一个搜索引擎上呆上几分钟,都会发现无数的供应商说他们的产品是智能的、自然的或者就像和人说话一样;其他人吹嘘自己是真正的会话和革命,还有许多其他发光的描述。当然,你想使用最好的技术,但你怎么知道哪一个是最好的,甚至哪一个替代品是好的,足以完成你心目中的工作?
显然,简单地看供应商网站并不是最好的方法。每个供应商都会声称他们的技术是最好的。看看YouTube的演示和与销售人员交谈也不会有什么帮助。供应商会有偏见,演示是基于非常仔细策划的互动。随便试用一个系统几分钟就会产生误导性的结果。是否有一个可靠的,客观的方法来衡量系统的准确性?
其他产品可以与标准度量进行比较。我们有每加仑汽车的英里数,电器的能源消耗量,显示器的屏幕分辨率。不幸的是,我们还没有针对智能虚拟助理的这些指标。即使我们把最好的缩小到最准确的,主观性仍然有很大的空间。
为了可靠地比较系统,我们如何测量智能虚拟助理的精确度?不幸的是,我们没有任何官方标准,但这里有一些似乎很有希望的想法。
测量IVAs的方法
让我们首先说,任何公平的比较都必须基于广泛接受的衡量标准和程序。一个实际的评估也不能太贵或太费时,所以我们不需要完美,只是一个足够好的比较。
首先,这里有一些有前途的策略。
1、系统可能以两种不同的方式出错,因此我们必须同时衡量这两种方式。系统可能会给出错误的答案,但也可能无法给出它应该知道的问题的答案。从技术上讲,给出错误的答案是不准确的。没有给出系统应该知道的答案是调用失败。在大量的测试问题中,我们可以得到整体关于调用失败和精确性的分数,这将给我们系统的准确性一个分数。虽然调用失败和精确性不是官方标准,但它们被研究人员广泛接受。
2、一个较新的指标是敏感性和特异性平均值(SSA)。这是谷歌为其聊天机器人Meena开发的。测试人员查看成对的用户查询和系统响应,并根据它们的敏感程度和具体程度对响应进行评分。敏感性的含义是显而易见的。特异性会惩罚像那很好这样的一般性回答。像那很好这样含糊不清的回答是数字助理试图掩盖其无知的信号。敏感性和特异性得分相结合,得到一个总的SSA得分。这一指标的一个吸引人的特点是,对回答打分的用户不必知道正确的答案,他们只需能够决定答案的合理性和具体性如何。
3、另一个值得一提的指标是亚马逊AlexaPrize中使用的指标。它不能测量准确度;相反,它通过跟踪用户与应用程序交互的时间来衡量应用程序的吸引力。对于像老年伴侣这样的应用程序来说这可能是一个有用的指标,老年同伴的目标是让用户参与应用程序,但精度不是一个主要要求。
评估IVA表现
不仅要使测量标准化,而且评价也要遵循一个标准过程:(1)有可重复的结果;(2)外部变量控制;以及(3)防止游戏结果。一个很好的例子是2015年著名的大众汽车排放丑闻,当时大众汽车在测试过程中关闭了排放装置,这样他们就可以谎报更好的排放评级。他们被抓住了。结果对大众汽车不利;其首席执行官因此辞职。
评估过程的一些最佳做法包括:
1、对同一个应用程序进行跨系统比较,这可以更通俗地称为比较苹果。比较执行不同应用程序的系统是不公平的,因为一个应用程序可能比另一个更难。例如,一个应用程序中可能有更多的意图和实体,这将降低该系统的分数。用于开发应用程序的数据可以是一个开放的公共数据集,就像Clinc开发的数据集一样,也可以是特定垂直方向上应用程序的内部数据。对于没有特定应用程序(比如Alexa或Siri)的泛型助手,会有一些已发布的数据,比如我的应用程序中使用的数据。
2、非重叠数据的培训和测试系统。如果一个系统是在以后测试的数据上训练的,那么当各种新的、以前看不见的数据出现时,测试将不能代表实际的工作条件。这将是一个游戏系统的例子。
把它们放在一起
那么回到最初的问题,如何正确评估智能虚拟助理呢?--下面是我们的一般建议。首先,不要把评估建立在主观测试的基础上。一个评估,包括几分钟的试用演示可能会非常误导。第二,使用常见的测量方法,比如调用、精确度和SSA。第三,遵循一个标准流程:使用相同的数据集进行所有比较,并将训练数据和测试数据分开。
遵循这些准则将导致可靠和有意义的比较。将这些信息与其他的需求开发工具、运行时成本、易维护性结合起来,您就可以成功地部署智能虚拟助理了。
声明:版权所有 非合作媒体谢绝转载
作者:Deborah Dahl
原文网址:
https://www.speechtechmag.com/Articles/Columns/Standards/Assessing-IVAs-How-Do-You-Determine-Which-One-Is-Right-for-You-147371.aspx