1.2 数据挖掘与数据分析的关系
数据分析是指用适当的统计方法对收集的海量数据进行分析、提取有用的信息和形成结论,然后对数据加以详细研究和概括总结的过程。有些人将数据分析划分为描述性数据分析、探索性数据分析和验证性数据分析。其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于对已有假设的证实或证伪。数据挖掘是深层次的数据分析,数据分析是浅层次的数据挖掘,数据挖掘更偏重于探索性数据分析,因为数据挖掘的重点是从数据中发现知识规律。它们的具体区别如下:
(1)数据分析处理的数据量可能不大;而数据挖掘处理的数据量极大,并且特别擅长处理大数据,尤其是几十万行、几百万行,甚至更多的数据。
(2)数据分析往往是从一个假设出发,需要自行建立方程或模型来与假设吻合;而数据挖掘不需要假设,可以自动建立方程,比如关联规则和聚类分析。
(3)数据分析往往处理数值型数据;而数据挖掘能够处理不同类型的数据,比如声音、文本等。
(4)数据分析主要侧重于通过观察数据来对历史数据进行统计学分析;而数据挖掘通过从数据中发现“知识规律”来对未来的某些可能性做出预测分析,其更注重分析数据间的内在联系。如果想从数据中提取一定的规律(即认知),则往往需要将数据分析和数据挖掘结合使用。因为在很多情况下,数据分析与数据挖掘是“同源同根”的。也就是说,数据分析与数据挖掘没有明确的界限。在计算机中,数据都是以0和1的形式进行存储的,从这个层面上讲,数据分析的范畴更大一些。
(5)数据分析与数据挖掘的区别更多地体现在职业方向上。相对数据挖掘工程师,数据分析师与业务方的工作衔接更多,理解与梳理业务诉求、明确业务目的和指导模型搭建是数据分析师的主要工作。而模型搭建与参数调优则是数据挖掘工程师的工作。当然,这是在分工比较明确的大公司中,如果是在中小公司中,以上工作都是由一个人完成的。