1.2.4 数据分析工具
掌握两个及两个以上的分析工具能更好地进行数据分析,分析工具大体可分成以下3类。
(1)数据库:按照数据结构来组织、存储和管理数据的仓库,常见的数据库有Access、MySQL、Oracle、DB2等。
(2)数据分析与可视化:用于组织数据并进行数据分析和可视化的工具,常见的工具有Excel、Power BI、Tableau等。
(3)统计与挖掘数据:用于进行统计分析和数据挖掘的工具,常见的工具有R语言、Python、SPSS、SAS等。
根据企业的不同需求阶段,数据分析人员需要掌握的工具有所不同,具体如下。
第一阶段:这个阶段的数据一般用Excel或WPS文件存储,数据文件多而杂,经营多年的电商企业甚至会有超过10万张的历史数据表格。企业无法对庞大的历史数据进行分析,数据管理杂乱。这个阶段企业需要解决数据的统一管理及分析问题,可选用Excel和MySQL工具。Excel解决分析层和应用层的问题,MySQL解决大量数据的存储和计算问题,且Excel和MySQL在国内企业的占有率和普及率都相对较高。
第二阶段:这个阶段企业已经实现了数据的统一管理和分析,但随着数据量的增加和数据应用能力的提升,Excel已经满足不了对大量数据进行多表建模联合分析的需求,可能刷新一个分析模型文件所需的时间都会很久。此时需要使用BI产品满足复杂的业务建模需求,企业可选用微软旗下的Power BI。部分企业在这个阶段会有专业统计方法和数据挖掘的需求,可选择SPSS,其使用难度不大。SPSS有两个工具。一个是Statistics,用于统计分析;另一个是Modeler,用于商业数据的分析与挖掘。SPSS在国内企业的占有率较低。
第三阶段:这个阶段的企业已经属于数据驱动型企业,数据应用需要在生产、流通、销售和管理等各个环节渗透。随着数据种类的复杂化,原有的数据采集、清洗及算法应用的效率已经满足不了需求。要运用IT技术和算法解决商业问题,真正将数据转变成生产力,可以在R语言和Python之间择其一,这两者都是应用非常广泛的编程语言。
第四阶段:这个阶段的企业已经是资深的数据驱动型企业。进入这个阶段的企业只有少数的龙头企业,他们通过技术手段极大地提高工作效率和商业收益,转入智慧商业领域,运用大数据和人工智能升级改造所有的环节。企业在这个阶段需要应用大数据框架(如Hadoop等)来解决并发问题,并用人工智能框架(如TensorFlow等)来解决应用问题。