第二节 大数据与社会科学研究的结合
一 传统社科研究与大数据研究方法对比
传统的计算研究范式,是先提出可能的理论假设,再通过调研搜集数据,然后通过计算仿真进行理论验证。数据密集型研究范式,是先积累了大量的已有数据,然后通过大数据计算得出未知的结论,并进一步验证结论的正确性,进而形成新的理论。大数据研究范式方法与定量研究范式在认识论基础上是相同的,但在方法论上又有显著的不同。而社科大数据则是在社科领域引入大数据技术,通过对社会生活中积累的海量数据进行分析,再通过这些社科数据变量进行计算分析,得到关于这些变量的描述以及多变量关系的分析。[3]
(一)采用新技术手段获取数据
首先,不同于我们传统依靠对被研究者的调查问卷来获得数据,大数据直接利用技术手段获取海量数据,获取被研究者的变量参数。其次对大数据的获取采用非传统手段,不需依赖传统的政府统计部门或调查。例如,每隔几年开展的全国人口普查是关于人口的最“大”的数据,理论上包括了我们每一个个人的人口统计学信息,体量巨大,却不能被称为“大数据”,因为人口普查数据依赖传统的社会统计部门逐级上报,是各级部门通过对上门调查直接获取的。而大数据往往采用现代信息化手段,直接获取,比如我们手机的通话记录和位置信息,交通部门的视频监控信息,气象水文监测数据等,特别是一些互联网公司,如百度、淘宝、京东等,都在用户的互联网行为中积累了大量数据并进行分析,成为当前大数据应用的亮点。
(二)调查样本接近全样本
在常规社会学定量研究中,常采用抽取调查的方法,当要调查某一社会现象时,往往都是从总体样本中,按预设的一定比例随机抽取样本,再进行现场调研,通过统计分析等方法,从样本中分析得到各种不同变量间的关系,以样本的结论来推断总体样本中这些变量之间的状况。当我们以大数据手段来进行研究时,就不采用随机抽样的方法,而是对符合分析条件的全部样本都纳入,通过大数据分析得出的变量之间的关系,而无须参数检验,即可直接用于反映总体趋势。举例,淘宝联合第一财经商业数据中心于2015年12月对外发布《淘宝大数据解读中国消费趋势》的系列报告,并不需再将用户随机抽样,直接把3.86亿淘宝用户总体作为分析对象,可直接分析出总体的消费状况并预测未来消费趋势。
(三)采用大数据研究方法而不是假设来建立模型
传统的定量研究往往先由研究者假设某种理论,并设计出基于假设的待检验模型,通过分析调查数据证实或证伪假设和统计模型。当我们采用大数据研究方法时,则直接分析海量数据,来寻找变量间关系,然后建立我们想要的模型。
正如张晓强等所说:“数据科学以海量的数据为研究对象,通过数据挖掘等手段来寻找海量数据中潜在的规律。它研究各个科学领域所遇到的具有共性的数据问题,通过对数据的规律的研究来实现对科学问题的解答。”[4]这就意味着我们通过大数据研究方法来建立模型,仅仅能反映一种趋势,并不反映必然规律,是非假设的前提条件下在真实世界中受各种综合因素影响的结果。这种模型就具有一定的模糊性与偶然性,但一定程度上却可以用来预测现象发展的趋势。比如谷歌在2012年在美国通过区域范围内网络搜索数据来提前预测流感爆发的趋势,显示了很高的准确率。
(四)发现相关关系但不一定是因果关系
维克托·迈尔·舍恩伯格在《大数据时代》一书中认为,大数据“不是因果关系,而是相关关系”。[5]我们做定量研究,目的是为变量的变异性得出因果解释,用其他变量对所要研究变量的变异性进行解释。而当我们进行大数据研究时,特别是在商业领域,比如网上电子商城中,商家只要了解用户的各种浏览或购买行为与最终购买的关联关系即可,通过分析关联关系,向用户推荐其可能购买的商品,并不需要解释这种关联的因果关系。例如,在当季节性飓风来临时,沃尔玛超市将蛋挞和飓风用品摆放在一起,以达到增加蛋挞的销售量的目的。这时我们采用大数据分析两个变量关系时,可能仅仅止步于相关关系,即使这个相关关系是虚假的,或者与其他变量相关联。当然不是说大数据不能通过分析得出因果解释,而是在许多领域应用大数据时,我们只需要呈现关联或者趋势,就能为决策提供依据,而不必探究因果关系。