上QQ阅读APP看书,第一时间看更新
1.1 大数据时代
什么是“大数据”?一篇名为“互联网上一天”的文章告诉我们:
一天之中,互联网上产生的全部内容可以刻满1.68亿张DVD,发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量),发出的社区帖子达200万个(相当于《时代》杂志770年的文字量),卖出的手机数量为37.8万台,比全球每天出生的婴儿数量高出37.1万。
正如人们常说的一句话:“冰山只露出它的一角”。大数据也是如此,“人们看到的只是其露出水面的那一部分,而更多的则是隐藏在水面下”。随着时代的飞速发展,信息传播的速度越来越快,手段也日益繁多,数据的种类和格式趋于复杂和丰富,并且在存储上已经突破了传统的结构化存储形式,向着非结构存储飞速发展。
大数据科学家JohnRauser提到一个简单的定义:“大数据就是任何超过了一台计算机处理能力的庞大数据量”。亚马逊网络服务(AWS)研发小组对大数据的定义:“大数据是最大的宣传技术,也是最时髦的技术,当这种现象出现时,定义就变得很混乱。”Kelly说:“大数据可能不包含所有的信息,但是我觉得大部分是正确的。对大数据的一部分认知在于它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时也就是数据的极限”。
飞速产生的数据构建了大数据,海量数据的时代称为大数据时代。但是,简单地认为那些掌握了海量存储数据资料的人是大数据强者显然是不对的。真正的强者是那些能够挖掘出隐藏在海量数据背后获取其中所包含的巨量数据信息与内容的人,是那些掌握专门技能懂得怎样对数据进行有目的、有方向处理的人。只有那些人,才能够挖掘出真正隐藏的宝库,拾取金山中的珍宝,从而实现数据的增值,让大数据“为我所用”。