一、走近大数据
1.大数据的概念
所谓大数据,是指以新数据处理技术为手段,在海量、结构复杂、内容多样的数据集里,以较快速度解析出规律性或根本性的判断、趋势或预见。与传统数据相比,大数据具有体量大、快速化、类型杂、价值大四个基本特征。一天之中,互联网产生的全部内容可以刻满1.68亿张DVD,发出的邮件相当于美国两年的纸质信件数量,发出的社区帖子相当于《时代》杂志770年的文字量。大数据不仅“大”,而且数据总量呈指数增长,全球过去3年产生的数据量超过以往总和,到2020年,全世界所产生的数据规模将达到目前的44倍。大数据不是大数“字”,它不同于传统的存在于我们生活、工作中的许许多多的数字,也不是数字的简单叠加,电子邮件、文档、网页、图像、声音、视频、位置信息等都是大数据。
2.大数据无处不在
每天,数以百亿计的手机、电脑、智能电视、传感器、卫星定位系统等终端设备,随时随地都在产生数据;工业、金融、研究、办公、媒体以及我们的日常生活,产生的数据都是大数据。具体而言,政府部门、企业掌握的数据库,微博、微信、社交网络上的各种信息,虚拟互联网中发送的每一张照片、上传的每一份文件、进行的每一次搜索,现实生活中打电话、医院挂号、超市购买物品等行为均可成为大数据的一部分。人们不知不觉被大数据包裹着、渗透着,每个人都在产生数据,既是数据的创造者和传播者,也是数据的接收者和分享者。
3.大数据的核心是预测
从纷繁复杂的海量数据里获得洞察力和价值是大数据的最终意义。通过收集、整理生活中方方面面的数据,并对其进行分析、处理和集成,大数据能够找出那些原本看来毫无关系的数据的关联性,把似乎没有用的数据变成有用的信息,以支持我们做出准确的预测。2009年谷歌公司通过观察每天接收到的来自全球超过30亿条的搜索指令,关注特定检索词条的使用频率与流感在时间和空间上的传播之间的联系,在甲型H1N1流感爆发几周前,就做出了范围具体到特定地区和州的流感传播预测。它比美国疾病控制与预防中心提供的报告迅速及时,预测的精确率达到97%。目前,大数据已经在医疗、教育、零售、交通运输等行业得到应用,它的预测功能将深刻改变传统行业的运作方式并大幅提高行业运作效率。