1.2.5 大数据对应的厚数据
有这样一个例子。某数据分析团队为一家车贷公司搭建了一套信用审查数据模型,该模型可以根据贷款申请者的数据自动预测其在未来能否按时还款,以决定是否通过用户的贷款申请。相比人工信用审核,模型预测是全自动的机器过程,在保证判断准确率的前提下,它能为公司节省大量的人力成本。
该项目在客户的工作地点开展,其工位处于一个信审专区,周围有很多信审工作人员,他们每天的工作是审核贷款申请者的信息资料,审查其中存在的可能的骗贷行为,这将成为该申请者能否被成功授信的“减分项”。
虽然目的都是实现快速、准确的信贷审核,但数据建模的工作逻辑与人工审核存在明显的差异。数据分析专家面对的是一串串数字,而业务人员面对的是鲜活的申请者。数据分析的基础是客户的申请资料,包括此人的性别、年龄、资产情况等基本信息,以及一些来自第三方平台的风险数据(如该申请者有无犯罪记录)。而另一方面,信贷审核人员在处理每笔信贷业务时,他们除了面对每个申请者的具体信息,还会通过电话核实申请者的身份,最终做出人工决策。可见,数据是分析师们每天的工作伙伴,但实际上大数据也存在局限性,如无法替代人们对真实业务的体会。
大数据是人们认识世界的一种方式,它将关于某人的一切量化为很多数据标签并存储。大数据的优势很明显,它具有通用的结构,每个用户在这些维度上的数据都会被记录。然而,不足之处在于,它仅仅是对世界认识的一个切片,对于切片之外的事物一无所知。
例如,面试官在面试新员工时,首先会查看申请者的简历,他的教育背景、工作经验、语言能力等都是以固定结构记录的数据,然而申请者给面试官留下的感觉,例如他是气场强大的还是平易近人的,大数据则无法给出答案。
在一些项目中人们通过数据发现,有些教育程度较高的贷款申请者也可能会在未来逾期还款。这听上去有些违背常理,然而精通业务的经理告诉我们这是合理的现象,那些所谓的高学历是申请者在填写表格时编造的。后者并不是大数据能够捕捉的行为,但对理解申请者却至关重要。
我们可以把人类认识世界的途径分为两种,一种是如今家喻户晓的大数据,另一种则是一直长久存在,却往往在这个时代被我们忽视的“厚数据”。如果将大数据比作对客观世界的标准化切片,那么厚数据就是我们在每个独特场景的深度感知。
简历上的文字属于大数据,而面试官对申请者的感觉则属于厚数据;表格中教育程度一列等于“大学”属于大数据,而填写者在背后的伪装是厚数据;股票、汇率的历史走势是大数据,而酒吧里人们的闲聊则是厚数据。
大数据缺乏厚数据所携带的场景信息。我们对任何事物的理解都不能将其孤立为一个元素,还要考虑这个元素所处的具体场景,以及它与其他元素的相互关系。例如同样的一杯红酒,在点亮烛光的法国餐厅里或是在嘈杂的办公桌前饮用,注定是不一样的感受,虽然它们的化学质地是相同的;同样是一个小时,在课堂度过或者是与好友一起度过,必然感觉是不同的长度,虽然它们的自然属性没有差异;两名被数据标记有犯罪记录的贷款申请者,虽然数据将它们一视同仁,然而一位只是过失的交通肇事,另一位则有抢劫银行的前科,他们在未来的还款能力上或许大相径庭。仅仅面对数据和算法,人们无法洞察所处的独特场景,所以大数据分析与人类决策是相互补充的关系,而非相互替代的关系。