Python数据挖掘实战(微课版)
上QQ阅读APP看书,第一时间看更新

1.1 数据挖掘概述

Anaconda的按照、配置和使用

当今世界正在经历第三次科技革命——信息革命,社会形态也正快速向信息化社会迈进。特别是近20年来,随着计算机的处理能力、存储性能的不断提高,互联网技术、云计算、大数据、数据库等技术的飞速发展,越来越多的信息系统或自动化系统被应用在生产、政治、经济、科学研究等领域,并存储了海量的数据,这些数据呈现爆炸式指数级增长的趋势。例如,根据全球互联网数据中心(Internet Data Center,IDC)的估计,2020年,全球互联网共计产生了64ZB[1]的数据,约比2018年增长了1倍。如果把64ZB的数据全部存在DVD中,那么DVD叠加起来的高度将是月球和地球距离的8.4倍(月球和地球的最近距离约为39.3万千米),或者绕地球81圈(一圈约为4万千米)。据有关机构统计,2020年全球用户平均每天发送超3000亿封电子邮件,在搜索网站上进行350亿次搜索,在Facebook上发送3.5亿张照片,而且,这些数字还在以惊人的速度增长。再如,中国人民银行称,2020年中国金融系统共计发生电子支付业务2300余亿笔,金额达2700万亿元,年增长率在20%以上。类似的情况还显著体现在智能驾驶、卫星导航、智能穿戴计算、生物医药、电子商务等领域。

人们普遍意识到,数据的爆炸式增长、广泛可用性和巨大数量,使其成为未来世界的重要资产。人们迫切需要能从数据海洋中发现有价值的信息和知识的技术,去粗取精、去伪存真,让数据真正发挥为人类社会服务的价值。这种需求促使了数据挖掘技术的诞生。