大数据
1 大数据:数据分析的前沿技术
计算研究机构Gartner给出大数据(Big Data)这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。“大数据”这个术语最早期是用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和Google File System(GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。从某种程度上说,大数据是数据分析的前沿技术(见图10)。
图10 大数据技术应用基本原理图
资料来源:建投研究院,公开资料
虽然大数据已经成为全社会热议的话题,但到目前为止,“大数据”尚无公认的统一定义。我们认为,认识大数据,要把握“资源、技术、应用”三个层次。大数据是具有体量大、结构多样、时效强的数据;处理大数据需采用新型计算架构和智能算法等新技术;大数据不但强调以新的理念应用于辅助决策、发现新的知识,更强调在线闭环的业务流程优化。因此说,大数据不仅“大”,而且“新”,是新资源、新工具和新应用的综合体。
大数据的特征包括以下几个方面。
(1)数据量大(Volume)
第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
(2)类型繁多(Variety)
第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
(3)价值密度低(Value)
第三个特征是数据价值密度相对较低。例如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。
(4)速度快时效高(Velocity)
第四个特征是处理速度快,对时效性要求高。这是大数据区别于传统数据挖掘最显著的特征。
既有的技术架构和路线,已经无法高效处理如此海量的数据,而对于相关组织来说,如果投入巨大而采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力展现了前所未有的空间与潜力。
2 大数据市场:以用户为中心的组织变革
大数据的技术发展经历了概念提出与酝酿(1980~2008年)、概念延伸(2008~2012年)和快速发展三个阶段(2012年至今)。尽管著名未来学家托夫勒在1980年就提出了“大数据”的概念,但是在很长一段时期内,由于IT产业发展能力以及信息资源的产业利用都还处于初级阶段,“大数据”的概念并没有得到人们应有的重视。
2008年的金融危机使得IT行业的跨国公司如IBM提出“智慧城市”的概念,大力推行物联网以及云计算,从而使得信息资料得以海量增长,同时其技术能力也面临大规模的紧迫需求。在这种情况下,美国的一些数据处理公司着眼于研发大规模的并行处理系统。在此需求的驱动之下,大数据技术很快得到应用,Hadop海量数据并行处理系统开始受到人们的广泛关注。从2010年开始,各大IT巨头在大数据领域的产品推出进度,包括EMC、惠普、IBM、微软在内的全球IT巨头纷纷通过收购大数据相关厂商来实现技术整合,亦可见其对大数据战略布局的重视。支撑推动大数据的因素主要来自一些大型IT公司,如谷歌、亚马逊、中国移动、阿里巴巴等,他们需要以更加优化的方式存储和分析数据。此外,还有一些来自健康医疗、地理空间遥感和数字媒体等行业的大数据需求。
大数据产业的形成也经历了三个阶段:第一阶段是内部数据的整合与挖掘;第二阶段是企业内外部数据的整合及用户行为模式分析与数据挖掘;第三阶段是数据驱动的以用户为中心的组织变革。
2012年全球大数据产业总体规模为114亿美元,2013年总体规模增长至180亿美元,到2017年大数据市场规模有望接近500亿美元。
美国是世界上大数据技术及市场应用的领先国家。美国联邦政府于2012年3月发布了“大数据的研究和发展计划”,该计划涉及美国国家科学基金、美国国家卫生研究院、美国能源部、美国国防部、美国国防部高级研究计划局、美国地质勘探局六个联邦政府部门,旨在提高从海量数字数据中提取知识和观点的能力,从而加快科学与工程发现的步伐。加强美国的安全和实现教学的变革,是美国为应对大数据革命带来的机遇,推动相关研究机构进一步进行科学发现和创新研究的重大举措。
美国联邦政府将大数据开发上升到国家发展战略层面,对世界各国产生了重大的影响。目前,欧洲的许多大型机构仍然处在大数据使用的早期阶段,而且严重缺乏有关大数据的技能,许多有关大数据的最新进展和技术都来自美国;因此,部分欧洲的机构要想跟上大数据快速发展的步伐,仍然面临着一定的挑战。但是,金融服务业,尤其是伦敦的投行业是欧洲最早采用大数据的行业之一,其在大数据方面的经验和技能足以媲美美国的大数据领军机构。而且该行业对大数据的投资一直维持着良好的势头,前景乐观。2013年1月,英国政府宣布将在对地观测、医疗卫生等大数据和节能计算技术方面投资1.89亿英镑。
日本政府对于大数据战略的应对相对比较及时。2012年7月,日本总务省推出新的ICT综合战略“活力ICT日本”,重点关注大数据应用。2013年6月,安倍内阁正式公布了新IT战略——“创建最尖端IT国家宣言”。这篇“宣言”全面阐述了2013~2020年以发展开放公共数据和大数据为核心的日本新IT国家战略。
中国大数据市场规模正在迅速扩展。根据计世资讯(CCW Research)研究数据,2012年中国大数据市场规模为4.5亿元,2013年增长到11.2亿元,且此后将保持每年超过100%的增长率,到2016年,中国大数据市场规模将达93.9亿元。
大数据也引起了我国政府的高度关注。《国务院关于推进物联网有序健康发展的指导意见》(国发〔2013〕7号)提出,要“加快传感器网络、智能终端、大数据处理、智能分析、服务集成等关键技术研发创新”。2012年12月,国家发改委将数据分析软件开发和服务列入专项指南;科技部在2013年初所公布的“国家重点基础研究发展计划(“973计划”,含重大科学研究计划)2014年度重要支持方向”中,将大数据计算的基础研究作为其中的一项重要内容,《中国电子商务企业发展报告2013》要求“研究多源异构大数据的表示、度量和语义理解方法,研究建模理论和计算模型,提出能效优化的分布存储和处理的硬件及软件系统架构,分析大数据的复杂性、可计算性与处理效率的关系,为建立大数据的科学体系提供理论依据”。一些地方政府也在积极应对大数据的调整,加快本地区大数据技术产业的发展步伐。2012年12月,广东省启动了《广东省实施大数据战略工作方案》;北京成立“中关村大数据产业联盟”;2013年7月,上海市政府有关部门发布了《推进大数据研究与发展三年行动计划(2013~2016年)》,将重点选取金融证券、互联网、数字生活、公共设施、制造和电力等具有迫切需求的行业,开展大数据行业应用研发,探索“数据、平台、应用、终端”四位一体的新型商业模式,促进产业发展。
分析机构Wikibon认为,2012年全球大数据企业营收50亿美元,未来5年的市场复合年增长率将达到58%,到2017年将达到500亿美元。IDC则预测大数据技术与服务市场将从2010年的32亿美元攀升至2015年的169亿美元。尽管所预测的产业规模存在差别,但所给出的高增速说明两家机构对大数据的发展前景都充满信心。从实际运行的案例看,作为第一家专注于大数据领域的上市企业,Splunk凭借其大数据监测和分析业务,营业收入已连续4年实现80%以上的高速增长。