评估虚拟助理(IVA)：如何确定哪一个适合你？-巨人网络通讯

评估虚拟助理(IVA)：如何确定哪一个适合你？

老秦夜译

　　CTI论坛(ctiforum.com)（编译/老秦）:也许你一直在考虑在你的业务中使用智能虚拟助理（IVA）。您希望自动化客户服务，帮助您的客户在您的网站上找到他们想要的内容，或者为您的员工提供工具。在任何一个搜索引擎上呆上几分钟，都会发现无数的供应商说他们的产品是智能的、自然的或者就像和人说话一样；其他人吹嘘自己是真正的会话和革命，还有许多其他发光的描述。当然，你想使用最好的技术，但你怎么知道哪一个是最好的，甚至哪一个替代品是好的，足以完成你心目中的工作？

　　显然，简单地看供应商网站并不是最好的方法。每个供应商都会声称他们的技术是最好的。看看YouTube的演示和与销售人员交谈也不会有什么帮助。供应商会有偏见，演示是基于非常仔细策划的互动。随便试用一个系统几分钟就会产生误导性的结果。是否有一个可靠的，客观的方法来衡量系统的准确性？

　　其他产品可以与标准度量进行比较。我们有每加仑汽车的英里数，电器的能源消耗量，显示器的屏幕分辨率。不幸的是，我们还没有针对智能虚拟助理的这些指标。即使我们把最好的缩小到最准确的，主观性仍然有很大的空间。

　　为了可靠地比较系统，我们如何测量智能虚拟助理的精确度？不幸的是，我们没有任何官方标准，但这里有一些似乎很有希望的想法。

　　测量IVAs的方法

　　让我们首先说，任何公平的比较都必须基于广泛接受的衡量标准和程序。一个实际的评估也不能太贵或太费时，所以我们不需要完美，只是一个足够好的比较。

　　首先，这里有一些有前途的策略。

　　1、系统可能以两种不同的方式出错，因此我们必须同时衡量这两种方式。系统可能会给出错误的答案，但也可能无法给出它应该知道的问题的答案。从技术上讲，给出错误的答案是不准确的。没有给出系统应该知道的答案是调用失败。在大量的测试问题中，我们可以得到整体关于调用失败和精确性的分数，这将给我们系统的准确性一个分数。虽然调用失败和精确性不是官方标准，但它们被研究人员广泛接受。

　　2、一个较新的指标是敏感性和特异性平均值（SSA）。这是谷歌为其聊天机器人Meena开发的。测试人员查看成对的用户查询和系统响应，并根据它们的敏感程度和具体程度对响应进行评分。敏感性的含义是显而易见的。特异性会惩罚像那很好这样的一般性回答。像那很好这样含糊不清的回答是数字助理试图掩盖其无知的信号。敏感性和特异性得分相结合，得到一个总的SSA得分。这一指标的一个吸引人的特点是，对回答打分的用户不必知道正确的答案，他们只需能够决定答案的合理性和具体性如何。

　　3、另一个值得一提的指标是亚马逊AlexaPrize中使用的指标。它不能测量准确度；相反，它通过跟踪用户与应用程序交互的时间来衡量应用程序的吸引力。对于像老年伴侣这样的应用程序来说这可能是一个有用的指标，老年同伴的目标是让用户参与应用程序，但精度不是一个主要要求。

　　评估IVA表现

　　不仅要使测量标准化，而且评价也要遵循一个标准过程：（1）有可重复的结果；(2）外部变量控制；以及（3）防止游戏结果。一个很好的例子是2015年著名的大众汽车排放丑闻，当时大众汽车在测试过程中关闭了排放装置，这样他们就可以谎报更好的排放评级。他们被抓住了。结果对大众汽车不利；其首席执行官因此辞职。

　　评估过程的一些最佳做法包括：

　　1、对同一个应用程序进行跨系统比较，这可以更通俗地称为比较苹果。比较执行不同应用程序的系统是不公平的，因为一个应用程序可能比另一个更难。例如，一个应用程序中可能有更多的意图和实体，这将降低该系统的分数。用于开发应用程序的数据可以是一个开放的公共数据集，就像Clinc开发的数据集一样，也可以是特定垂直方向上应用程序的内部数据。对于没有特定应用程序（比如Alexa或Siri）的泛型助手，会有一些已发布的数据，比如我的应用程序中使用的数据。

　　2、非重叠数据的培训和测试系统。如果一个系统是在以后测试的数据上训练的，那么当各种新的、以前看不见的数据出现时，测试将不能代表实际的工作条件。这将是一个游戏系统的例子。

　　把它们放在一起

　　那么回到最初的问题，如何正确评估智能虚拟助理呢？--下面是我们的一般建议。首先，不要把评估建立在主观测试的基础上。一个评估，包括几分钟的试用演示可能会非常误导。第二，使用常见的测量方法，比如调用、精确度和SSA。第三，遵循一个标准流程：使用相同的数据集进行所有比较，并将训练数据和测试数据分开。

　　遵循这些准则将导致可靠和有意义的比较。将这些信息与其他的需求开发工具、运行时成本、易维护性结合起来，您就可以成功地部署智能虚拟助理了。

　　作者：Deborah Dahl

　　原文网址：

　　https://www.speechtechmag.com/Articles/Columns/Standards/Assessing-IVAs-How-Do-You-Determine-Which-One-Is-Right-for-You-147371.aspx

上一篇：远程呼叫中心绩效管理的三位一体
下一篇：视频如何支持联络中心业务交互