三、以数据挖掘驱动的异常查询实时监测模型_征信大数据：理论与实践（中国金融四十人论坛书系）-QQ阅读男生玄幻网

上QQ阅读APP看书，第一时间看更新

三、以数据挖掘驱动的异常查询实时监测模型

如图1所示，根据数据挖掘算法，异常查询实时监测模型包含6个步骤。

图1　异常查询实时监测模型

（1）业务理解

通过业务调研、违规查询样本分析及数据探索后发现，大量违规行为伴随查询量突增。典型案例如下：2015年3月某银行违规查询了3.2万份个人信用报告。从该用户的历史查询轨迹来看，原本平稳的查询频率在事发月份出现了异常突增，足以引起高度关注。类似的情况在多个案例中反复出现。因此，本次数据挖掘的目标定位于对用户月查询量进行预测，通过比对预测查询量与实际查询量的差异，判别用户的异常风险。

（2）质量检查

检查查询记录的各字段值是否符合业务逻辑，并清理脏数据，保证后续的数据分析得出可靠的结论。

（3）数据准备

本次数据挖掘的样本选用个人征信系统最新36个月全部查询记录，样本数为9.0亿条。经过数据预处理后，按月统计每个用户的查询总量，并形成查询量矩阵R。

查询量矩阵R共有m个月度观察点，n个查询用户，其中，a_ij （1 ≤i ≤ n，1 ≤ j ≤ m）表示第i个用户在第j个月份的查询量。

（4）数据分析

月查询量矩阵是一个稀疏矩阵，矩阵内存在大量为0的值，表明只有少量用户连续每个月都有查询，而大量用户的查询是时断时续的，因此有必要对查询连续性进行进一步的分析。

①查询休眠时长分析

分析用户最后一次查询距离当前日期的天数，定义为当前休眠天数T，统计结果显示：average（T）=197天，min（T）=0天，max（T）= 973天。

结合表1与图2可以看出，50%和65%为突变点，T≤84天的用户达到50%，T≤369天的用户达65%。也就是说，最近3个月内，50%的用户至少发生过一次查询；最近12个月内，65%的用户至少发生过一次查询。

表1　用户睡眠天数分位数

图2　用户睡眠天数频度分析

②休眠重启行为分析

用户休眠后又重新查询的行为特征是什么呢？以月为单位来计量，用户在自然月内有查询行为即为当月活跃，否则为休眠。滚动一个月后继续观察用户的活跃状态。由此分析正常用户的休眠、重启特征。

以2015年9月份的数据为例，当前活跃用户6.7万人，占比42%。在2015年10月份，上个月6.7万活跃用户中，93%的用户继续活跃，剩余7%变成睡眠1个月用户。2015年9月份睡眠1个月用户0.4万人，占比3%。在2015年10月份，这0.4万用户中，42%的用户又有了查询，再次活跃起来，剩余58%的用户由睡眠1个月用户变成睡眠2个月用户，具体见表2。

表2　用户活跃分析　单位：万人