Excel数据处理与分析:数据思维+分析方法+场景应用
上QQ阅读APP看书,第一时间看更新

1.1 什么是数据分析

数据分析是如何应用到企业中的?数据分析师是做什么的?一套完整的数据分析流程是怎样的?下面带着这3个问题来学习这一节。

1.1.1 数据分析的前世今生

1.数据分析是什么

“数据分析”这个词从字面意思上理解,就是运用数据进行业务分析,那么运用什么数据、进行何种分析呢?这才是理解数据分析的关键。

大数据时代,企业产生了大量的、不同类型的数据,将这些数据收集起来,进行汇总、整理和加工,通过构建数据分析的方法论模型,运用数理统计的方法发现问题、解决问题,并预测可能出现的问题,给企业提供科学有效的决策依据,这就是数据分析。下面介绍几个企业数据分析的案例。

(1)通信行业通过大数据分析挽留用户

波兰电信公司通过分析用户的通话记录,如该用户给谁打过电话、打电话的频率等指标构建社交网络图谱,将用户划分为“联网型”“桥梁型”“领导型”和“跟随型”4个大类,针对不同类型的用户采取不同的营销策略,这种分析将用户流失预警模型的准确率提升了47%。

(2)沃尔玛“啤酒与尿布”的购物篮分析

20世纪90年代,美国沃尔玛超市发现年轻的父亲在购买尿布时通常也会买啤酒,于是超市将啤酒和尿布两个看起来毫不相关的商品放在一起促销,结果提升了销售额。这就是购物篮分析:通过分析顾客购物篮中商品之间的关联程度,挖掘顾客的消费习惯,从而为卖方的营销做出决策支撑。

(3)购物网站的推荐功能

相信大家都有过这样的经历:在某电商购物App或网站上购买过奶粉以后,就会接连收到奶嘴、尿布等相关婴儿用品的推荐。买过X商品后,购物网站会相应地推荐与之相关的Y商品,这个功能看似简单,实际上实现起来却相当复杂。简单地说,网站会对获取到的用户行为数据,如浏览的商品、停留时长、搜索的关键词等进行分析,从而得到用户可能感兴趣的商品,并向其推送,这是基于数据分析的新的运营模式。

相信通过以上3个案例,大家已经感受到了数据分析的重要性。在企业运营中,数据无处不在,数据分析也时时刻刻都在发生,及时进行现状分析、原因分析和预测分析,对企业的生产和决策都是有很大帮助的。

2.数据分析师是做什么的

随着移动互联网、云计算和大数据等高新技术迅速发展,企业获得了越来越多且种类繁复的数据,管理和运用这些数据并使其为企业发展助力成为企业发展不可或缺的手段。于是,越来越多的企业开始设置数据分析师这个岗位,而大数据分析师更是被媒体称为“未来最具发展潜力的职业之一”。“让数据创造价值”,是对这个岗位最好的阐述。

总的来说,数据分析师这个岗位可以分为归属开发类的和归属业务类的。这两条线要求的技能前期有交集,后期就完全不同了,因此也需要进行不同的职业规划。

归属开发类的数据分析师需要用Python、R等编程语言搭建算法模型,进行预测、分类、聚类等分析,类似的岗位有算法工程师、数据挖掘师、数据科学家等。企业里往往也会有数据仓库、数据提取、数据中台、数据运营等一整套的流程作支撑。

归属业务类的数据分析师大多偏向业务分析、行业研究,能够运用恰当的思维和工具来分析数据、原因和现状等,并进行可视化展现、撰写数据报告。这类岗位对开发类技能要求较少,主要是对业务的理解,类似的岗位有数据产品经理、数据运营、商务分析等,有些小公司会让产品运营人员兼任。

不管数据分析师是归属开发类还是归属业务类,用Excel进行数据分析都是基础,只有打好基础,后续才能顺利开展工作。一个初级的数据分析师的日常工作包括但不限于数据监测、数据排除、报表维护、为市场的拓展提供决策、对产品的上线进行影响评估、建立用户画像进行全面分析、搭建客户流失预警模型等。20年前,编程是只有程序员才能做的专业性很强的工作;现在,编程已经成为一种通用的技能。而数据分析未来也可能会成为一项人人必备的技能。

1.1.2 数据分析的流程

数据分析的流程可以大致分为明确目的和思路、获取数据、处理数据、分析数据、展示数据5个阶段,如图1.1.1所示。我们学习数据分析也是按照这5个阶段来进行的。

图1.1.1 数据分析的流程

1.明确目的和思路

乙方拿到一个项目,要以甲方的需求为导向;同样地,数据分析师拿到一堆数据,要以目的为导向。数据分析是为了提出问题、发现问题、解决问题,为营销决策提供数据依据,为业务提供市场情报。例如我们运营一个微信公众号,不能盲目地发文,需要先统计一下阅读量、增长人数、净增长人数、阅读渠道分布等,然后分析一下订阅数为什么会增长、用户为什么会取消关注、什么时候发文阅读量高、用户都是从哪些渠道过来的等问题,还可以构建一个用户画像,这样才能更好地运营微信公众号。

通常,知道分析的目的还不够,还要知道怎么分析、从哪入手。1.2节和1.3节会详细介绍数据分析的思维模式和模型。培养分析的思维能帮助我们养成分析数据的习惯,用数据分析的思维去思考问题,将数据分析的思维运用到一些现有的模型当中,能够让我们快速地找到问题的关键。月入3000元和月入30000元的数据分析师的差距不是技术,而是思维。刻意练习用数据分析的思维看待生活中的问题,相信你的数据分析思维会有很大的提升。

2.获取数据

“巧妇难为无米之炊”。要进行数据分析,首先得有数据才行,那么数据一般从哪里获取呢?对于公司员工,数据的来源自然是企业内部;对于没有从事数据分析但又想要学习的爱好者来说,可以从网上获取数据,其方式多种多样。总的来说,数据源有两种,分别是内部数据和外部数据,如图1.1.2所示。

(1)内部数据

如果你是为了公司运营而进行数据分析,那么自然就会有公司提供的内部数据,比如各种产品、订单、用户的数据。这类数据一般存储在数据库中,由从数据库中取数的专业人员取数(也有可能是分析师自己取)。取好的数会被存储为一张表,数据分析师可以用Excel打开,直接进行分析。

(2)外部数据

对于爱好者来说,想要获得企业的内部数据来做练习是不太容易的,这时可以从外部数据入手。外部数据包括互联网上搜索到的政府、行业、企业公开的数据集和通过市场调查获得的数据,如通过搜索引擎找到国家统计局网站上的国民经济统计数据、旅游行业的出行数据、阿里巴巴网购价格指数数据等。像kaggle、天池等大数据类的比赛也会发放一些脱敏的企业数据,还可以去一些专业的论坛下载公开的数据。

大部分情况下,获取到的数据都是.xlsx、.xls、.csv格式。对于获取到的数据如何用Excel读写,数据导入、导出后如何存储,以什么格式、编码存储数据等问题,都是在这一步骤中需要学习和解决的。

图1.1.2 获取数据的途径

3.处理数据

处理数据是整个数据分析流程中花费时间最长的一步,同时也是最重要的一步。如果前期数据都处理不好,后期又如何分析呢?数据处理的一般步骤如下。

(1)明确字段

拿到数据后,首先要明确数据中各个字段的含义,思考这个字段是如何得到的。如果是企业内部数据库中的数据,则要明确负责维护这个字段的人是谁,最好能和他/她沟通一下取数逻辑和字段的含义。要注意观察每个字段的数据类型,有的是小数、整数,还有的是字符、日期,要注意区分开来。如果是数值型字段,要观察它是如何表示的,有无单位,如流量的单位是MB/s,利润的单位是元(有些还可能是万元)。还有些字符型的字段被表示成了数值型,如“是”和“否”、“男”和“女”这种字符型的字段,为了表达方便有时会以1和0来表示。如果字段当中出现空值,要明确这个空值是什么意思,是人为错漏还是本身就为空。这些都是在明确字段这一步骤需要注意的,这些工作很基础,也很重要。

(2)规范化

要对数据进行规范化处理。什么是规范化处理呢?就是让数据规范,例如数值型的数据就不要以字符型显示,日期类型的数据要统一格式,让数据变成我们希望看到的样子。这一部分内容会在1.4节和2.1节中详细讲解。此外,这两节还包括对表格规范化的要求,如避免合并单元格、避免插入空行等,以及数据类型间的转换,如文本转数字和数字转文本等。

(3)清洗

数据清洗,顾名思义,就是要清洗掉“脏”数据,保留有价值的数据。这一步骤包括对重复值、缺失值、异常值及不规范数据的识别和处理。要能够找到重复值、缺失值、异常值和不规范的数据值,并知道这些值该如何处理,是直接删除还是寻找替代值,这里面大有玄机。用Excel里的很多功能都可以定位重复/缺失/异常值,如函数、条件格式、数据透视表和高级筛选等,不同的功能有不同的效果,适用于不同的场合。数据清洗将在3.2节重点讲解。

(4)抽取

抽取数据主要是指对个别值的查找引用和对字段的拆分。我们知道,合并字段是简单的,拆分却困难得多,因此,在数据处理环节就将字段处理为最简单的状态是最好的。在3.3节中,我们会讲解字段拆分所用到的函数、方法和技巧。

(5)合并

数据的获取可能会有多个渠道,因此会有多个数据源表。当数据清洗过后,就需要对两张或多张表进行关联,这就是数据的合并。对于纵向的字段进行横向连接,对于横向的字段进行纵向连接,考察的是Excel函数运用的能力,这在3.4节中会详细讲解。

(6)计算

数据计算包括字段间的计算和数据标准化的操作。字段计算包括简单的对数据进行加、减、乘、除的计算,还有复杂一些的运用函数进行的求和、累加和逻辑运算等,这里面涉及很多Excel函数的操作,在3.5节中会详细讲解。而数据标准化则是数据规范化的加强版,为了分析方便,我们会对字段做一些标准化的操作,如将不同单位的数据全部缩放在0和1之间,这样便可以进行比较了。

4.分析数据

如何分析数据,这个话题太大了。先要明确怎么分析,接着才是用什么工具来分析。怎么分析呢?有很多分析的模型、思路和方法可供参考。其实这一步和流程当中的第一步“明确目的和思路”有些相似,只不过此处就要确定从哪几个方面来分析,并具体到每一步应如何分析。

从大的框架来说,可以多阅读企业(例如极光、艾瑞等)公开的数据分析报告,学习别人是如何分析一个问题的。细说开来,常用的数据分析模型,如SWOT、PEST、5W2H、逻辑树等模型,在做宏观分析、背景调查时很管用;思路方面,如对比、平均、交叉、分组、综合指标、RFM分析等数据分析的思路是运用较多的。我们每时每刻都会用到思路,重点在于分析问题的时候能不能想到这个思路。

至于分析的工具,在Excel中首推数据透视表。数据透视表是对量大、规范、需要汇总且需随时变更的数据进行操作的“利器”。数据透视表入门很简单,但要对其进行编辑和计算就是另一回事了,如切片器的功能、透视表函数的功能等;更进一步地,还可以将SQL语句写入数据透视表中,从而避免了做辅助列,并能更快速地筛选、查询、透视数据。这一部分内容将会在4.1.2节中详细讲解。数据透视表的意义不仅体现在本身功能强大上,若对透视表理解透彻了,还能方便我们学习SQL、Python等其他数据分析工具。

除了数据透视表,还有哪些分析工具呢?分类汇总、排序筛选及后面要重点讲解的分析工具库都是Excel中用来分析数据的工具,能够帮助我们把数据分析透彻、理解到位。

5.展示数据

分析过后,还需要将分析的结果展示出来。分析是数据分析师自己理解的过程,而展示是告诉别人你分析了什么。分析结果可视化同分析一样重要,甚至比分析还重要。

用Excel进行可视化,无非就是对几个基本的图表和一堆以基本图表为基础的变体图表的使用,了解什么样的数据需要哪种类型的图表,并在会用的基础上,学习图表美化的技巧,如怎么搭配颜色可使图表更美观、怎么做出“别人家”报告中那样高大上的图表。在5.3节中还会介绍Excel动态交互图表是如何实现的。数据分析切忌重分析、轻展示,否则会茶壶里煮饺子——肚里有货倒不出。

1.1.3 Excel也可以进行数据分析

Microsoft Excel 是微软公司推出的一款电子表格软件。从1989年到现在,其版本经历了多次变更,功能也在不断更新。截至目前,Excel的版本已经更新到2020版,其在数据处理领域领先的地位始终如一。

对于初学者而言,Excel是最方便、快捷、有效的数据分析入门工具。对于量大的数据来说,可能会用到Python、SQL等分析工具,但对于量少的数据来说,Excel完全能满足基本的分析功能需求。不要对Excel有偏见,基本上所有的数据分析师都是从学习使用Excel开始的。Excel是基础,基础打好了,数据分析的高楼才不会塌。

本书从Excel的角度来讲解数据分析,所有内容适用于Excel 2016及以上版本。

练一练

从招聘网站上寻找数据分析师的岗位职责和任职要求,做一个简单的职业规划。

提示1:数据分析师包括哪些岗位,不同岗位的具体要求又是什么?

提示2:不同行业对数据分析岗位的要求是否也不同?