第五节 应用案例
阿里巴巴数据委员会自建立以来,数据质量就成了该部门的核心工作,车品觉[2]认为数据质量是大数据的命门,如果将大数据比作水流,来自任何支流的数据,如果质量有问题,都会带来整个水源的污染。由于淘宝等平台上的数据良莠不齐,存在不少虚假数据,会带来很大的干扰。有时,在淘宝平台上,对于一个人,我们会看到2部手机、1个iPad、3张信用卡、5个淘宝账号,收集数据时,以为是多个人,但实际上就是一个人。但如果依照这个数据,商家可能就将红包给了一个不活跃的账户。为此,阿里巴巴数据委员会试图剔除虚假的数据,让收集的数据能反映真实的消费情景。比如上面的案例,就要鉴定所有这些账户、信用卡等是否为同一个人所有。再如,阿里巴巴数据委员会经常要做产品界面测试,有时它会临时修改界面,会突然多出一个按钮,这就会带来大量误点击操作,数据收集时,就会得到很多失真的用户行为数据。阿里巴巴数据委员会的数据管理人员目前的工作就是要将这些失真的数据剔除,或者将数据还原到真实的场景。为了更好地管理和利用大数据资源,阿里巴巴数据委员会采取的具体措施如下。
打破分割,统一数据标准。统一数据标准,就是让净化后的数据流得以汇集。阿里巴巴下属各个部门业务重点不同,对数据的理解不同,因此数据标准往往各不相同。要将这些数据汇集成大数据之海,就必须统一标准,这也是阿里巴巴数据委员会目前重点推行的项目。
精细化管理数据。“目前,我们需要的用户数据,平台还给不了。”阿里巴巴平台上的一个企业如是说。很多企业希望阿里巴巴能将用户属性的标签分得更细(不仅分男、女用户,还进一步按不同消费特点、收入细分)。小也化妆品创始人肖尚略认为,“平台数据的细分是基础,细分好,企业才能用好”。如何让数据精细化?阿里巴巴数据委员会根据各个商家的应用场景,将原始数据打上更细致、对商家更有参考价值的标签。以淘宝平台为例,一方面收集用户信息时,专注对商家更实用的内容,比如对于在外租房的大学生用户,除了收集他们的地址信息外,还会通过其他渠道收集其房租的租金,从而了解对方的消费水平,将这些数据提供给相应的商家。另一方面根据商家的应用情景,对数据材料做初加工。比如我们从中筛选出一个人是否戴眼镜,戴的眼镜是多少度的数据,就对卖眼镜的商家起到了很大作用。
在数据精细化思路下,2011年底,阿里巴巴的支付宝平台开发黄金策产品,车品觉带领团队处理了1亿多活跃的消费者数据后,筛选出500个变量,用它们来描述消费者,最终让企业能够随时调用变量,获得用户信息,比如某一类包含使用信用卡数量和手机型号等具体信息的客户数目。2013年,天猫开始研发适用于天猫商家的系统,通过对会员标签化,让商户了解店铺会员在天猫平台的所有购物行为特点。
收集更多的外部数据。在阿里巴巴平台上,大多时候收集的是顾客的显性需求数据,如购买的商品和浏览等数据,但顾客在购买之前,就可能通过微博、论坛、导购网站等流露出隐性需求,所以仅仅做好自己的大数据是不够的,还要纳入更多外部数据。
阿里巴巴曾尝试通过收购掌握中国互联网的底层数据。2013年4月,阿里巴巴收购新浪微博18%的股权,获得了新浪微博几亿用户的数据足迹。5月,阿里巴巴收购高德软件28%股份,分享高德的地理位置、交通信息数据以及用户数据。其他的并购包括墨迹天气、友盟、美团、虾米、快的、UC浏览器等,阿里巴巴也从中获得了大量的数据。通过这些并购,阿里在试图拼出一份囊括互联网与移动互联网,涵盖用户生活方方面面的全景数据图。
加强数据安全管理。淘宝卖家希望阿里巴巴能加大数据开放的步伐,对于阿里平台来说,这并不是一件容易的事情,因为这关乎商家和消费者的隐私,商家不希望竞争对手获得自己的机密信息,消费者也不希望被更多干扰。因此,阿里巴巴内部专门成立了一个小组,来判断数据的公开与否,把握“谁应该看什么,谁不应该看什么,谁看什么的时候只能看什么”。