第三节 概念界定、研究视角与研究框架
一、大数据概念的界定
大数据概念从提出到广泛应用仅仅只有几年时间,但关于“大数据”词汇的起源却众说纷纭,国内研究者一般认为1999年8月史蒂夫·布赖森等人在《美国计算机协会通讯》杂志上发表的《千兆字节数据集的实时性可视化探索》一文中最先使用“大数据”一词,这篇文章中有一节标题就是“大数据的科学可视化”,文章认为:“功能强大的计算机是许多查询领域的福音,它们也是祸害,高速运转的计算产生了范围庞大的数据。曾几何时我们认为兆字节(MB)的数据集就很大了,现在我们在单个模拟计算中就发现了300GB范围的数据集。但是研究高端计算产生的数据是一个很有意义的尝试。曾经不止一位科学家指出,审视所有的数字是极其困难的。正如数学家、计算机科学家先驱理查德·W·海明指出的,计算的目的是获得规律性的认识,而不是简单地获得数字。”通过这段表述可以看出,史蒂夫·布赖森等人对于大数据的观点:①大数据有利有弊;②探寻大数据背后的规律是一种科学发现。应该说,史蒂夫·布赖森等人已经发现大数据背后蕴含的巨大科学价值。因此,国内现有研究都把史蒂夫·布赖森等人作为“大数据”一词的提出者,研究者同时认为,虽然在此之前也有一些关于大数据的概念表达,但都没有提出“大数据”一词,之前的研究往往把“大数据”表达为“数据大”。
然而随着文献的不断收集与梳理,更多关于“大数据”词源的资料被发现,从现有材料来看,早在史蒂夫·布赖森等人之前,已经有相关研究提出过“大数据”概念。弗里德曼认为,早在1997年美国国家航空航天局(NASA)撰写的一份报告中已经提出“大数据”概念,该报告描述了计算机图表的视觉化带来的挑战,如当计算机数据越来越庞大时,将对计算机的内存、硬盘等硬件设备产生巨大挑战,NASA称之为“大数据的问题”(The problem of big data)。也有研究者认为,20世纪90年代初,美国数据仓之父比尔·恩曾经多次在演讲中使用“big data”一词,但当时仅限于词汇表达,并未把大数据作为一种概念和思维方式来理解,更谈不上价值挖掘。
无论是比尔·恩、史蒂夫·布赖森等人还是NASA的报告首先提出“大数据”一词,都距今有20多年的历史,“大数据”最初也仅仅是作为计算机通信领域的专业词汇,使用人群窄、使用频率低。作为技术热词则是在2008年到2010年这几年间的事情,2008年年末,业界组织“计算社区联盟”(Computing Community Consortium)的兰道尔·布赖恩特(Randal E. Bryant)等人发表了一份与大数据有关的有相当影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》,意味着“大数据”一词不仅在词汇上而且在概念上得到了美国知名计算机科学研究人员的认可。2010年2月,肯尼斯·库克尔在《经济学人》上发表了一份关于管理信息的14页的特别报告《数据,无所不在的数据》。库克尔在文中写道:“世界上有无法想象的巨量数字信息,并以极快的速度增长。从经济界到科学界,从政府部门到艺术领域,很多地方都已感受到了这种巨量信息的影响。科学家和计算机工程师已经为这个现象创造了一个新词汇:大数据。”由此,无论是学界还是业界都开始认识到大数据对人类生活各个层面的渗透,“大数据”逐渐开始成为研究者关注的研究对象。
关于大数据的概念界定层出不穷,主要包括以下几类。
1)词典、百科
(1)牛津词典:“大量的资讯,其运用与管理带来重大逻辑的挑战。”
(2)维基百科:“大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。”
(3)百度百科:“大数据指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。”
2)研究报告
(1)麦肯锡(McKinsey)的研究报告《大数据:下一个竞争、创新和生产力的前沿领域》(2011)中认为:“大数据指数据量级超过传统数据库软件工具捕获、存储、管理和分析能力的数据集。这个定义是主观的,并且包含了一个数据集量级的动态定义(超过这个大小才会被认为是大数据)——也就是说,我们没有定义一个确定的值(如多少TB)。我们认为随着技术的进步,被认定为‘大数据’的数据集的大小数量级也将增加。”这一定义有两方面内涵:一是符合大数据标准的数据集大小是变化的,会随着时间推移技术进步而增长;二是不同部门符合大数据标准的数据集大小会存在差别。
(2)美国奥巴马政府的《大数据研究和发展倡议》(2012)认为:大数据是一种大规模数据的管理和利用的商业模式和技术平台的泛称,把大数据定义为“未来的新石油”,大数据技术领域的竞争,事关国家安全和未来。这一定义侧重于大数据的开发价值和商业利益。
3)专家学者
(1)舍恩伯格、库克耶。在他们的《大数据时代》一书中并没有给大数据下一个完整的定义,在他们看来,大数据可能更侧重于实践应用和价值开发,任何定义都将会限制现代社会生活中大数据思维的拓展,他们认为:“大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。”
(2)肯尼思·库克耶。作为洞见大数据时代到来的最早观察者,肯尼斯·库克尔在《经济学人》上发表了长达14页的大数据专题报告《数据,无所不在的数据》中,只是阐述了数据价值,并没有给予大数据一个完整的概念。
综合以上各种关于大数据的定义和描述,可以发现业界尚没有一个统一的、公认的定义能够被所有人接受,不同组织、机构及个体的不同视野和观察都会对大数据概念有不同的理解。我们认为,大数据并不是仅仅数据量大,而应该有更丰富的内容,大数据至少包含数据量大、大数据开发技术、大数据思维三层(见图1-1)。
图1-1 大数据的三个特征
(1)浅层的表象特征:数据量大。大数据最基本的特征是数据量大,包括采集、存储和计算的量都非常大,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
(2)中层的操作特征:大数据开发技术。大量的数据并非大数据,大数据关键在于数据开发,这必然涉及大数据开发技术。事实上,大数据的兴盛与其开发技术的发展密不可分,早期大数据的发展正是基于雅虎的Hadoop项目,Hadoop最初只是雅虎公司用来解决网页搜索问题的一个项目,后来因其技术的高效性,被Apache Software Foundation公司引入并成为开源应用。Hadoop本身不是一个产品,而是由多个软件产品组成的一个生态系统,这些软件产品共同实现全面功能和灵活的大数据分析,使对结构化和复杂数据的快速、可靠分析变为现实的基础。随着技术的发展,如今的大数据开发与另一个词“云计算”密不可分,未来大数据的发展则会结合“物联网”技术,可以说,大数据的每一次进步必然与相应的数据开发技术紧密结合。
(3)深层的抽象特征:大数据思维。大数据最核心的价值并非数据开发价值,而是通过大数据革命改变传统思维方式,用以思考和解决人类社会问题。舍恩伯格认为,大量的数据能够让传统行业更好地了解客户需求,提供个性化服务,从传统的实物功能价值转化为数据服务价值,利用大数据把人类生活中的不可预测转变为可预测,把未知转化为已知。
虽然我们无法给予“大数据”一个准确的定义,但无论是大数据的研究还是应用,以上三个方面是构成大数据概念的基本内容,我们在研究大数据对影视产业影响的过程中也必然围绕这三方面内容展开。
二、研究视角与研究框架
(一)研究视角
受制于研究者的知识结构和知识背景,任何研究都会有研究的视角,而任何视角都围绕所研究的中心问题展开。“任何人类行为都和其他多种人类行为相关联,如果我们不把现象从中提取出来,对它们的研究就无法开始”,对于大数据与影视产业发展的研究就需要把抽象的理论从发展现实中抽离出来,通过分析个体或群体的影视观赏、评论、反馈、互动等行为分析大数据如何影响影视产业发展,批判地理解大数据对影视产业发展的积极或消极影响,以及影响的程度、范围和领域。这需要在分析层面建立一个综合、系统的研究框架,并以一定的研究视角开展分析研究。因此,我们在对这一问题进行讨论的时候,会把影视产业发展放置于一定的经济和文化环境之下,以大数据分析作为总的研究范式,考察影视产业价值链和产业环境各项细分因素,既关注宏观的政治、经济因素,也关注微观的个体行为因素。本书的研究视角主要分为三个层面。
(1)理论视角。利用相关理论展开大数据背景下的影视产业发展分析。传播学基础理论是整个研究的理论背景,同时借鉴产业经济学知识,探讨大数据对影视产业的关系结构、产业内组织结构变化的规律。
(2)实践思维。考察影视产业如何利用大数据实现自身发展,特别是移动互联网时代下新的媒介形式的出现对影视产业的生产、传播、营销等产业链的影响,最终实现研究的应用化和操作化。
(3)批判视角。对大数据的现有研究中,研究呈现出两种不同的态度,一种是完全支持的积极态度,另一种则是批判的态度,他们一方面肯定大数据的某些价值作用,另一方面则对大数据能多大程度改变人类生活持质疑态度。事实上,随着大数据的广泛运用,其消极效果已经开始出现,如数据主权、数据隐私权、数据产生的极端工具理性等问题。本书中会对此展开专门探讨。
(二)研究框架
通过对大数据特点和影响的分析,客观地总结影视产业发展的历史和现实,系统研究大数据对影视产业链和产业环境因素的影响,建构影视产业大数据应用系统,提出合理可行的良性发展机制和应对策略,并在此基础上对一些典型案例通过实证的研究方法予以论证分析。在操作上,本研究将采用理论与实证相结合的研究方法,同时可以借鉴前人的民族志研究方法。民族志对影视研究的价值在于,它能帮助我们进入量化研究不能描述的世界,尽管它存在普遍性问题和调查者的主观倾向问题,但在具体研究过程中我们可以结合量化的数据加以克服。具体研究框架如图1-2所示。
图1-2 研究的具体框架