■数据库制作占整个分析工作量的80%
为了制作用于构建顾客行动模式的数据库,首先要明确其利用目的,在此基础上再进行设计工作;然后根据设计的内容进行数据清理及个人、家庭信息汇总等。通过这样的一个过程,整理出一人一行的一览表,制成构建顾客行动模式可使用的数据库。这一系列处理会相当麻烦,因此需要花费很多时间。大体而言,数据库的制作要占到所有分析工作80%的工作量。
■数据库设计占整个数据库制作思考量的80%
数据库的设计是从已有的数据中,找出构建顾客行动模式所必需的信息。该数据库中的数据是顾客行动模式的输入数据,因此会直接影响模式的精度,所以数据库设计是所有分析工作中最重要的。要对数据进行细查,就应清楚地将能够使用的数据和不能够使用的数据分开。对于这项工作,不仅需要有缜密的思考能力,还要有在过去的经验及事物的基础上进行类推的能力。可以说在数据库的做成中数据库的设计就需要占用其80%的思考量(见下图)。
■需要的数据并不一定全部都有
数据库设计时,要找到构建顾客行动模式所必需的数据,但是想要的信息并不一定全都在自己公司的数据储备中。如果要制作精细的顾客行动模式,从顾客属性到对应的顾客履历,所有与顾客相关的数据都是需要的。但事实是,不要说收集所有的数据,就连收集到的数据也不一定完整。而且,收集到的数据也并不都可以直接用于顾客行动模式的构建。例如数据的分布范围过广,或者牵连的其他数据过多时,就难以得到正确的分析结果,或者无法充分把握其结果。为了解决此类问题,需把收集到的数据进行适当加工,转换成对构建顾客行动模式有帮助的信息。例如,将邮政编码改为行政区域和地域名称,对购买履历中的购买次数、累计金额、间隔等变量做一个说明等。对于变量的说明需要经验和灵感,因此数据挖掘被公认为是一种专业技能。
■数据库和个人信息汇总处理
即使作出了变量说明,也还没有完成构建顾客行动模式的数据库。还有必要进行数据清理和个人信息汇总。数据清理是对信息内容进行大小写、全半角的统一,数据类型的统一,对空格(Null)等缺损值插入文字列实施处理,并用数据清理工具调整为可处理状态。如果一个项目的缺失信息太多,那么这个项目将从模式的构建内容中去除。
个人信息汇总是对数据库中存在的顾客信息进行统一化处理,把住所、姓名、电话号码、出生年月等作为关键项目,将同一顾客的多条记录汇总成一条记录。届时,再利用合算总额等方法,整合关键项目以外的信息。对于家庭,也存在统一化的必要,可以用同样的方法实行家庭信息汇总。