
1.5 大数据时代的典型应用案例
1.5.1 塔吉特超市精准营销案例
美国明尼苏达州一家塔吉特超市门店被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿(一个高中生)。但没过多久他却来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。
原来孕妇对零售商来说是一个含金量很高的顾客群体,塔吉特百货就是靠着分析用户所有的购物数据,然后通过相关关系分析得出事情的真实状况。在美国,出生记录是公开的,等孩子出生了,新生儿母亲就会被铺天盖地的产品优惠广告包围,那时再行动就晚了,因此必须赶在孕妇怀孕前期就行动起来。塔吉特的顾客数据分析部门发现,怀孕的妇女一般在怀孕第三个月的时候会购买很多无香乳液。几个月后,她们会购买镁、钙、锌等营养补充剂。根据数据分析部门提供的模型,塔吉特制订了全新的广告营销方案,在孕期的每个阶段给客户寄送相应的优惠券。结果,孕期用品销售呈现了爆炸性的增长。塔吉特的销售额暴增,大数据的巨大威力轰动了全美。
这个案例说明大数据在精准营销上的成功,利用大数据技术分析客户消费习惯,了解其消费需求,达到精确营销的目的。这种营销方式的关键在于时机的把握上,要正好在客户有相关需求时才进行营销活动的精准推送,这样才能保证较高的成功率。
1.5.2 谷歌流感趋势案例
谷歌公司启动的GFT项目,目标是预测美国疾控中心(CDC)报告的流感发病率。谷歌基于用户搜索日志(其中包括搜索关键词、用户搜索频率以及用户IP地址等信息)的汇总信息,成功“预测”了流感病人的就诊人数。
美国CDC疾控中心统计美国本土各个地区的疾病就诊人数,然后汇总再公布出来,一般要延迟两周左右。就是说当天流感的全国就诊人数要在两周之后才知道,谷歌就利用它的搜索引擎搭建了一个预测平台,把这个数据提前公布出来。我们都知道“越及时的数据,价值越高”,所以谷歌的工作无论是在公共管理领域还是商业领域都具有重大的意义。
谷歌对于数据的处理只用了很简单的Logistic回归关系,却成功地预测了复杂的流感规模的问题。谷歌用简单的方法预测了复杂的问题,根本原因就在于谷歌的数据量大,它有着世界上最大的搜索引擎,每个用户的搜索行为痕迹都存在谷歌的数据库里。
1.5.3 证券行业案例
在大数据技术诞生之前,市场情绪始终无法进行量化。东亚尤其是中国的股票类证券投资市场仍以散户为主,因此市场受投资者情绪和宏观政策性因素影响很大。而个人投资者行为可以更多地反映在互联网用户行为大数据上,从而为有效地预测市场情绪和趋势提供了可能。大数据技术通过收集并分析社交网络如微博、朋友圈、专业论坛等渠道上的结构化和非结构化数据,形成市场主观判断因素和投资者情绪打分,从而量化股价中人为因素的变化预期。市场投资情绪量化是在传统量化策略基础上的创新产物。
2011年5月,英国诞生了一个规模为4000万美金的对冲基金Derwent Capital Markets,该基金是首家基于社交网络的对冲基金,通过分析Twitter的数据内容来感知市场情绪,从而用于指导投资。而国内的广发中证百度百发策略100指数型证券投资基金是国内首只互联网大数据基金,最大的特点是它将大数据因子纳入量化选股模型。通过互联网用户行为大数据反映的投资市场情绪、宏观经济预期和走势,成为百发100指数模型引入大数据因子的重点。
1.5.4 某运营商大数据平台案例
众所周知,用户的上网行为中蕴含着大量的客户特征和客户需求信息,这些信息至关重要,而又是传统的CDR话单分析所不能提供的。因此,这就要求用户的上网日志记录必须被保存,而且需要进行数据分析挖掘处理,然后根据处理结果定义用户的行为习惯,为运营商业务部门提供重要的营销依据。上网数据是一个典型的大数据。采用什么方式进行存储和检索是一个大问题,此前运营商采用的架构方式是IOE的架构,但是它解决不了我们的问题。存储这么大规模量的数据,以后超越了可管理容量的上限。在做查询的时候,关系型数据库对大规模数据做操作的时候性能是严重下降的。
传统IOE方式用来存储这么大的上网记录已经不可能了,需要采用大数据技术Hadoop来解决。Hadoop本身的底层核心组件之一是分布式文件系统HDFS,可以解决海量数据如何存储的问题。另外一个核心组件MapReduce计算框架解决了海量数据如何计算的问题。此外,构建于HDFS之上的HBase分布式数据库处理海量数据的入库速度和检索速度非常迅速。目前运营商已构建了一个全国集中的一级架构海量数据存储和查询系统,在集团公司范围内进行统一部署,各个省份仅仅是做数据的采集,按照业务实时性将数据传送到集团公司,由集团公司统一处理,全国所有用户所有上网记录数据都放北京数据中心里。截至目前已经部署了4.5PB的存储空间,分布在300个数据节点上,系统每天有能力处理700亿条上网记录。