从统计学角度看质检作业的几大问题（上）-巨人网络通讯

　　质检一直是我认为最没用、却是最重要的一个管理手段。

　　我几次上公开课，都会点名问：请问在座有没有做质检的？然后每次都有不少学员举手，我就会说：你们的岗位，是最没用的，完全没有数学根据的，不如不要做算了，然后这些举手的学员就会很生气，问我说：都交了这么多学费来，老师在胡说八道什么啊？

　　我当然是在讲反话，但以一个学习统计学多年的老家伙来说，现行质检作业的方式，真的跟数学没有关系。

　　我常常开玩笑说（虽然有时是讲的很认真严肃的），质检就是找一群人，躲在一个屋子里，偷偷摸摸听别人讲电话，然后光明正大的说：你这里讲错了，那里讲不好了。

　　这种方式，在管理学上称为恐吓法，也就是让座席员知道，你尽量接电话，接越多越好，但只要你服务不到位，得罪了我们客户，我们有人偷听你电话的，随时准备扣你工资！

　　恐吓法是一种心理学的管理方式，在数学上是不成立的。

　　大家有注意到我讲的这句话吗？质检打分数来评断座席员好坏的这种方式，在数学上，是不成立的！

　　大家以为自己质检的作业，是符合科学的，是公平的，但统计学很轻易可以证明，很多公司的质检作业，基本上跟掷骰子是没有两样的。

　　讲到这里，我应该是引起众怒了，这么多人花了这么多力气的心血，我尽然说这跟掷骰子没有两样，浪费了大家的心血不说，更严重的问题是，质检分数高度跟工资挂勾，如果这些质检分数是不科学的，那启不是说决定座席员工资的方法，也是用骰子掷的？

　　我曾经在前几期文章讲过一个例子，一个呼叫中心在全国各地有2千多个座席员，深圳区一个很认真的小姑娘被客户一直辱骂，最后她以为客户挂线，电话也不再录音了，就讲了句[变态]，一天3百通电话，一个月6、7千通电话，总部质检就只有抽4通，偏偏就抽到这一通，当月分数是全国2千多个座席代表的倒数前十名，把深圳区分数整个拖垮，对自己期许过高的她还搞的寻死寻活的。

　　同样的戏剧情节在同一个月，发生在同一个呼叫中心，也就在深圳区的另外一个座席代表，有严重的服务态度问题，会收客户线，就是要客户挂机，深圳主管都警告这座席员说要炒掉她了，结果同月份总部质检，也是抽4通，这座席员知道总部质检的漏洞，总部没有抽到她任何一通要客户挂机的电话，结果被打深圳区第三名，这姑娘跟主管说，现在不是要炒掉我的问题，而是要加多少工资的问题，因为我是深圳之光！

　　每个月有几千通的电话，只有抽几通电话，可以看到事情的真相吗？

　　从统计学的角度来看，质检作业有6大问题完全不符合统计学的要求，这些问题的任何一点都足以让质检分数完全不具有数学意义，只是对座席员进行恐吓法管理而已。

抽样数不足

　　这是笔者说的质检作业的第一个大问题，当你抽样数不足，也就是样本不够，却要说这个座席员[是属于这种特质]时，这跟掷骰子的情况只有稍微好一点而已。

　　到底要多少样本数才对事情的真相有足够的信心呢？

　　如果是平均值的样本数计算，所需最少样本数＝概率度2 x 标准差2 / 极限误差2

　　大家看到这公式肯定是昏倒的，换成一个容易懂的方式说。

　　假设一个座席员过去曾经被抽检过10通电话，分数分别是100、95、94、90、85、80、80、75、75、70，这10通电话的平均值是84.4分，标准差是10分（如果不懂标准差的定义，请参考笔者上一期的文章）。

　　如果我们问说，在95％的信心水平下，这座席员质检分数的平均值大约会落在那个范围？

　　这是一个很重要的问题，因为你给这座席员打出了84.4的平均分，但这分数却是一个抽样的结果，只要是抽样，一定有误差，你必须要估计误差，也就是在古代，如果你是大宋提刑官，打算要杀人，你必须估计你杀错人的机会有多大，而这公式如下：

　　平均误差＝标准差 / √抽样数

　　极限误差＝概率度 x平均误差

　　大家如果没有看明白这公式，完全没有关系，只要知道结论就好，也就是利用上面这两个公式，平均误差是 10 / √10 ，也就是3.16

　　95％的信心水平，概率度是1.96，极限误差也就是6.2

　　我们得到了一个重要结论：

　　换句话说，如果你说，你有95％的信心判断这座席员的分数，那这分数应该是落在78到90之间（84.4 ─ 6.2和 84.4 ＋ 6.2）。

　　大家看到这分数范围有多宽了吗？

　　一个座席员被打分数的标准差在10分左右，是很常见的，只要最高分跟最低分的差距高于20分，就有可能标准差会大于10分，如果你的质检员打分的录音抽样数目只有10通，她打出了84分，那这座席员真正的分数，很有可能在78到90分之间！

　　换句话说，你说这座席员的84分，高于另外一个座席员的80分，你要奖励这座席员，在统计上来说，这很可能是抽样误差造成的，根本不是事实！

　　上面这两个公式转换一下，就会得到最少样本数的公式，我们可以计算一下，如果这个座席员的分数标准差还是10分，如果想要在95％的信心水平下，有把握的讲出上下分数不多于3分的话（也就是81分和87分之间，也就是84.4 ─ 3和 84.4 ＋ 3），那应该要抽多少录音档呢？

　　所需最少样本数＝概率度2 x 标准差2 / 极限误差2，把数据带入这个公式，所需最少样本数＝1.962 x 102 / 32，也就是43个。

　　大家说这么少啊，一个座席员一个月只要抽43通，等于一个礼拜抽10通，这应该不是太难的事情。但大家要注意的是，最少样本数是跟标准差的平方成正比的，我们刚刚只是用10分来算而已，但再好的座席员都很难达到标准差为10分，为何？

　　因为这里讲的标准差是指这个座席员的标准差，而不是这个月抽听录音档评分出来的标准差，只是因为我们不知道这座席员真正的标准差，只好权宜行事，用这次抽样录音分数的标准差来计算。

　　真正的作法，应该把你以前曾经替这座席员打过的分数，所有给这座席员打分的历史都拿出来，计算所有打分纪录的标准差，也就是不能只看这个月的。

　　用这算法，一个座席员的标准差就很容易扩大了。如果扩大到了15分，带入公式，所需样本数就变成了96通，也就是一礼拜要抽24通。

　　万一这座席员的标准差是20分，就需要抽取 171通，一礼拜要抽42通，这基本上是不可能的！

　　大家应该很难做到高样本数的要求，因为要做到高样本数，成本是受不了的，那应该要怎么办呢？

　　其实统计学要求高样本数，大家刚刚应该注意到了，是对于座席员标准差大的，也就是座席员质检分数忽高忽低、上上下下的，如果标准差小，只需要少数的抽样就能看到事情的真相。

　　这个统计学上的特性，让我们对于质检作业有了一个新的作法，就是：不同标准差的座席员应该要有不同的抽检率。

　　呼叫中心把座席员按照质检分数的标准差来分类，甚至更简单，按照座席员质检分数的好坏来分类（通常分数高，标准差也小），不同分类的抽检率不同，这样可以让质检员的力气，花在真正需要花的地方，也就是分数高的，不需要抽听太多电话，分数低的，需要花更多力气来确认到底这座席员表现的是好还是坏，这种分类抽检的方式，是完全符合统计学的。

　　很多国外的专家们最近一直大力呼吁，与其测量平均分数，还不如测量座席员的一次解决率和致命错误率，因为这两个指针需要的样本数比较少，这两个指标才具有数学上的意义。

　　具有数学上的意义，这是很重要的，有数学上的意义，作为主管的你，骂起人来才会比较大声，不是吗？

　　不然你看到一个座席员的质检分是79分，你拿来跟另外一位的83分比，你想起来许乃威讲过的，这两个分数在数学上的意义，可能跟拿骰子随便乱掷结果差不多，你恐怕就骂不下去了。

　　困惑是阻止有效管理的重大障碍，一个在数学上不成立的绩效测量，是造成困惑最直接的原因。

　　打分数主要分成两种方式，一种是平均数打分，也就是有一个范围要你打分，例如从0到100分（正向），或是从0扣分扣到40分（负向）。

　　另外一种打分数是叫做合格率打分，也就是你只判断座席员这通电话的服务是否合格，而合格与否只有两种可能，过关或不过关。

　　是否统计学就像是这些国外专家讲的，少量的抽样就足以判断座席员的合格率（例如100通电话其中有多少通合格）？

　　很不幸的，笔者也一度以为是，结果发现完全不是。

　　合格率的最少样本数＝（全部录音档数量x概率度2 x 合格率x（1-合格率））/ （全部录音档数量x极限误差2 +概率度2 x 合格率x（1-合格率））

　　套用这个公式，假设全部录音档数量是2千通，如果合格率是95％，你希望95％的信心水平下，合格率出现在92％到98％的范围（上下3％），你至少要抽取184通电话的样本才能确认！

　　如果合格率降到90％，你就需要322通电话才能确认。

　　座席员的合格率很容易低于90％，如果你有测量致命错误率或一次解决率，你就会发觉这数据太容易低过90％，一旦低过90％，你不禁就要问自己：

　　我有足够的样本数来支持我的结论吗？

　　我们从上面可以看到，如果你测量的是平均值，也就是你测量0到100分这种分数的，最少样本数是跟座席员的标准差有很大关连，座席员标准差越高你就需要越多的样本数，如果你是测量合格率的话，最少样本数是跟合格率高度相关的，也就是合格率越低，你需要越多的样本数。

　　其实这跟直觉是符合的，一个标准差越大的座席员，通常合格率就越低。

　　谈到平均数和合格率的公式，大家应该还有注意到一个重点：就是极限误差的选择影响很大，如果你可以接受上下5分（平均分数）或上下5％（合格率）的误差，那需要的最小样本数就少很多了，拿上面的例子来说，这个座席员的分数标准差是15分，平均分数是85分，在95％的信心水平下，分数介于上下3分（82分和88分之间），需要抽96通录音文件，但如果容许分数介于上下5分（80分和90分之间），那就只要抽35通就可以确认了，这是一个巨大的差别。

　　对合格率来说，全部录音档数量是2千通，如果合格率是90％，95％的信心水平下，合格率出现在87％到93％的范围（上下3％），至少要抽取322通电话，但如果放宽到85％到95％的范围（上下5％），这时就只要129通电话就能确认。

　　换句话说，到底要抽取多少通录音档才在数学上有意义，还是要看你希望要多精确，也就是你的绩效评核系统要求有多么的精确。

　　如果一个座席员的分数是85分，另外一位是82分，两人的工资因此就会有差距，那你就必须要采用3分以上的误差来估算才行，如果你采用的是5分以上的估算，那这两位座席员的差距是3分，完全在这5分的误差范围之内，他们的差距，太有可能是抽样导致的误差，而不是他们两位真实的情况了。

　　笔者对不同的标准差，不同的合格率，还有不同的极限误差，做了两张表，可以让读者直接查表，不必套用上面这么复杂的公式，可以直接找出自己到底需要多少样本数，有兴趣的读者欢迎写邮件来索取。

　　如果你的样本数无论如何没有办法这么多，那是不是说质检分数的测量就没有意义了？

　　这到也不是，在统计学上有另外一个现象对我们有帮助，就是如果这个月一个座席员分数是79，另外一位是83，你千万不要马上下结论说，这个79分的座席员比较差，因为很可能是抽样误差导致的，但如果，大家听到[如果]这两个字了，这个座席员连续三个月都比另外一个座席员的分数低4分以上，这在统计学上就有了相当的信心说，79那个座席员的质检分数是低于83的。

　　所以有不少的呼叫中心对于这种0到100分的质检分数（负向打分也是一样），不是每个月都马上进行考核罚钱的，而是每一季，也就是会看三个月的变化情况。

　　请注意，笔者讲的是[变化情况]，不是平均值，如果你把座席员三个月的质检分数拿来做平均，然后用这个平均值进行比较，仍旧在数学上是不成立的！

抽样偏见

　　我前面谈到的第一个问题是抽样数不足，造成质检分数在数学上是不成立的，第二个问题是统计上常说的[抽样偏见]。

　　上面我讲到那个有2千多个座席员的呼叫中心，有一个小姑娘抓到质检的漏洞，让她收客户线的电话，一通都没有被抓到，她利用的方法就是抽样偏见。

　　质检人员一般进行录音档抽样时，不会抽一分钟以下的电话，因为一分钟以下的电话，通常都是一般咨询电话，没有什么内容可以评分。

　　这个小姑娘就是抓住这个特性，只要她打算要收客户线，她就会在一接到电话就做，例如她会跟客户说，对不起，现在系统当机，无法服务，或是说，你的声音太小，请你挂机重打。

　　这通电话的通话时长肯定低于一分钟，自然没有质检人员会抓到她。

　　质检人员利用抽样的偏见，也能做很多文章，我在公开课上，很喜欢跟学员讨论这个话题：

　　质检员要怎样利用抽样偏见来整她不喜欢的座席员？

　　也就是说，只要抽录音档的时候做点手脚，分数还没有打，这个座席员的分数很自然就会比较低。

　　大家都知道答案吗？

　　这是质检员都知道的手法，就是抽比较长的电话，或是抽忙时或忙日的电话，或是抽抱怨的电话，这种电话在统计上，分数都倾向比较低。

　　要克服这问题，就必须要求质检员抽样时，要[均衡]。

　　怎么测量『均衡』？利用录音抽样均衡度测量表，也称为MITLA检查法，进行均衡性的检查，确保抽样的均衡性。

　　MITLA这五个英文字分别代表：

Measurements ：哪些项目需要考虑均衡度
Index ：均衡度测量表尺设计
Time balance ：录音时间抽样均衡（忙时、闲时、忙日、闲日）
Length balance ：录音档长度抽样均衡（长的录音、短的录音）
Application-Type balance ：业务内容抽样均衡（咨询、投诉等不同业务）

　　简单讲，质检员应该要把自己对某个座席员评分的录音檔，按照上面的T、L、A，就是长度、录音时间点、业务内容，画个频次表（笔者在上一期内容有介绍频次表的画法），跟其它座席员进行比较，看有没有重大差异，如果有，对这座席员的抽样，就是[不均衡]。

　　每个座席员所有被抽检录音档的MITLA检查表，更是质检主管应该要亲自检查的。

　　毕竟抽样上只要有偏见，不管是质检员有意，或是系统抽出来就自然出现了偏见，都会对座席员不利，造成严重的偏差。

质检员打分标准不一

　　我常常会讲这个故事，笔者念大学的时候，跑去修一门课，叫做[婴儿与母亲]。当时笔者只有19岁，一个小男生，跑去学怎么给宝宝洗澡，不是我在当时特别喜欢宝宝，而是那门课的老师，是一个慈祥的妈妈，我一堂课都没去上，还是拿到80分，因为她给的最低分就是80分。

　　我当时念物理系，我们必须要数学系去修微积分，数学系里面都是被我们称为[大刀]的老师，我们就碰上了杨大刀，第一天上课，他就说：同学们，我知道大家都会很认真，但30％的同学还是会被我当掉。

　　我那门课就刚好拿了60分。

　　你会宁愿遇到慈祥的妈妈，还是杨大刀？

　　如果质检员的评分标准不一样，一个松，一个紧，两个质检员的分数是没有办法比较的。

　　从统计学的角度，如何检查两个质检员的评分行为是否一致？

　　利用笔者之前讲过的频次表，就可以很轻易的画出质检员的落点分布图，比较两个质检员的落点分布图，就很容易看出来两个人的行为差异。

　　上图是两个质检员在今年9月份打的质检分数，每个质检员分别对80人打了分数，然后把这些分数做成频次表（如果不知道怎么做频次表，可以看笔者上一期的文章有详细介绍）。
底下是这两位质检员打的分数统计：

第一位质检员

第二位质检员

分数	人数
60	0
65	3
70	2
75	3
80	5
85	6
90	16
95	20
100	25

分数	人数
60	0
65	1
70	1
75	9
80	2
85	15
90	19
95	9
100	24

　　把这两列人数放在一起画图，就看到上面的频次表。

　　可以看到第一个质检员（蓝色）整条线比较平滑，分数越高打的人越多，而第二个质检员（红色）显然行为跟第一位质检员很不一致，第二位在95分评出的人比90分评出的人少了不少，80分评出的人比75分评出的人又少了不少，也就是第二位质检员跟第一位相比，跑出来了两个低谷。

　　如果你把不同质检员的落点分布图画出来，发现类似上面这张频次表出现了不一致的行为，只有两种解释：
不然就是这两组被测量的座席员的确有本质上很大的差异（一般可能性较低），再不然就是质检员测量在用的尺歪了。

　　不管是哪一种可能，对管理者都是很有价值的管理线索。

　　不仅要比较质检员和质检员之间的落点分布图，藉此来看出质检员打分的公平性与否，同时也要看同一个质检员每个月不同的落点分布图，藉此来检查质检员评分行为是否随着时间而改变了。

质检员打分出现不作为的情况

　　什么叫做不作为？

　　这在问卷统计上，称为[不回答率[，也就是你发出了问卷，结果客户有的问题回答，有的问题却没有回答。

　　如果客户整个问卷都不回答，事情还好办些，最多就是不计算这个问卷，当它不存在，但有的问题回答了，有的不回答，这对统计结果会造成很严重的偏差。

　　质检员也会出现这种[不回答率]，而且很频繁，也就是说，质检员对于某些录音档会有听没有到，听到了，打分了，但都是打满分，或是一分都没有扣。

　　质检员为了避免引起座席员反弹，很容易会产生这种[不作为]的行为，因为只要她扣了座席员的分数，这通录音文件很可能就需要经过复核，座席员会抗议，这通录音文件的分数变成了显着的目标。

　　要避免这通录音文件变成显着的目标，最简单的方法就是，让它满分过关，这样大家都开心。

　　但学过问卷调查的人都知道，这种[不回答率]有时比抽样误差造成结果的偏差，可能还要严重。

　　我们要怎么用统计学的办法侦测出来质检员是不是有真的在做她的工作，每通录音都有真的在打分呢？

　　许乃威宏盛高新技术有限公司执行董事 will_hsu@126.com

全 部 栏 目

全部栏目