数据化风控:信用评分建模教程
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第一节 数据收集、质量检验

笔者从过往评分模型开发经验来看,资料的收集往往是整个项目过程中最繁复吃力的工作,毕竟数据的质量及其涵盖范围主导着最终模型的预测结果。模型鉴别力是否合乎项目预期目标?使用的数据变量是否足够解释应变量的产生?这一切皆依赖完整良好的开发数据来确保评分模型的效度与适切性。

在数据收集阶段,我们首要检视的项目如下。

一、是否有足够的坏客户

模型开发的最终目的在于分辨好坏客户,倘若开发母体本身的坏客户数量不多,会直接影响我们找出坏客户的行为模式,致使缺乏足够的样本以产生有意义的统计分析。

二、数据的可得期间是否满足项目目标

统计模型的重要基础是利用过去的历史资料预测未来母体的表现结果,也暗示历史数据必须在某种程度上具有与现行或未来母体客群的相似性。假使数据期间所涵盖的产品或客户已非开发模型的目标客群,则此历史资料不具备代表性,不适合作为开发模型的数据源。

三、变量数据是否准确

为了能正确建立自变量与应变量间的预测关系,在捕捉变量数据时,需确认数据字段的定义和其记录时的方式。例如,“年收入”这个变量,一般对预测申请件好坏具有很强的鉴别力,但若存在下述情况,则会影响变量数据的准确性可能会导致最终“年收入”变量的鉴别力不佳。

(1)分析人员需确认的年收入定义是否一致?

(2)是以14个月还是12个月收入做加总?

(3)数值是否翔实?

(4)未填写数据时是否维持空白或代入预设数值?