1.2 大数据应用及挑战
大数据无处不在,已被应用于各个领域,包括宏观经济、金融、电力系统、医疗服务、电子商务以及社交网络等。
在宏观经济领域,淘宝网根据网上成交额比较高的390个类目的商品价格得出的CPI(Consumer Price Index,居民消费价格指数)数据,比国家统计局公布的CPI数据更早地预测到经济状况。国家统计局统计的CPI数据主要根据的是刚性物品,如食品,百姓都要买,但差别不大;而淘宝网是利用化妆品、电子产品等购买量受经济影响较明显的商品进行预测,因此其CPI数据更能反映价格走势。美国印第安纳大学利用谷歌公司提供的心情分析工具,从近千万条的短信和网民留言中归纳出六种心情,来预测道琼斯工业指数,准确率高达87%。
社交网络近几年突飞猛进的发展,大数据在其中也发挥了巨大的作用。随着互联网用户数量的迅速增加,产生的社交数据也呈现了几何式的增长。对社交网络进行大数据挖掘是当前数据挖掘领域的一个热点,商家通过数据挖掘可以获得与消费者之间更好的互动。越来越多的商家开始将推广渠道转向社交媒体,因为通过社交网络用户之间的转发会产生巨大的社会影响力。
大数据在农业领域也被广泛应用,已经对传统的农业模式产生了巨大的影响。美国推出政府数据开放平台,该平台融合了农业、商业、气候等领域的数据,并且全部免费公开。美国农业部启动土壤数据实时监控项目,建立交互式系统,为农户提供最全面、最新的农业数据,已经成功帮助农民节省了生产成本,同时提高了农产品的质量。英国则发布了《英国农业技术战略》,该战略高度重视利用“大数据”和信息技术来提升农业生产效率,改变农业发展模式。我国的农业也正在向大数据化、精准化农业发展。近年来,国内有关农业大数据的服务类平台相继被开发使用,支持农业大数据的管理、分析、可视化的技术也相继成熟。
大数据在商业模式创新领域发挥了巨大的作用。大数据使商业企业能通过整合网站浏览、购物历史、位置等信息,获得客户的购物偏好,从而为不同的客户定制个性化服务,提供更加精细的产品和服务,提高购买率,实现更大的商业利润。
大数据在医疗服务领域也正发挥巨大的作用,提高医疗效率和效果。大数据分析技术使临床决策支持系统更加智能。利用图像分析和识别技术,识别医疗影像数据,挖掘医疗文献数据建立医疗专家系统,为医生提出诊疗建议,使医生从重复的咨询工作中解脱出来,提高治疗效率。
日益增长迅速并且繁杂的数据资源,给传统的数据分析、处理技术带来了巨大的挑战。大数据的“4V”特征在数据存储、传输、分析、处理等方面带来本质变化。数据量的快速增长,对存储技术提出了更大的挑战,需要有高速信息传输能力的支持,同时具有对数据的快速分析、处理能力。
为了应对不断涌现的新任务,与大数据相关的大数据技术、大数据工程、大数据科学和大数据应用等迅速成为信息科学领域的热点问题,得到了政府部门、经济领域以及科学领域有关专家的广泛关注。大数据时代的基本特征,决定了其在技术与商业模式上有着巨大的创新空间,将对全球的可持续发展起到关键作用。
大数据还不能全面、准确、真实地反映所有的事物。即使获得了某一事物的所有数据,要挖掘出其中的信息也还存在一定的难度,还取决于数据挖掘的方法和手段。因此,需要将大数据分析与数理统计学相结合,利用数理统计思想优化后的大数据分析,要优于单纯依靠大数据技术分析所得的结果,能有效提高预测的精准度。例如,谷歌公司利用大数据对流感的预测,2008年的结果与美国疾控中心的数据高度吻合,但在2009年、2013年则出现了很大的偏差,而借助数理统计理论,利用多元线性回归模型改进算法之后则有效消除了这种偏差,从而得到了更加准确的结果。