1.1 认识数据分析
数据分析是指用合适的统计分析方法对收集来的数据进行分析,将这些大量的数据进行汇总,并做成可以被人们消化和理解的资料,从中提取有用的信息。数据分析常常以数和量的形式展现,通过实验、观察、调查等方式获取结果。
1.1.1 数据分析的价值
如今是一个数据风暴的时代,几乎每个企业都会讲数据,通过数据向消费者阐述产品的好处、企业的信誉度,以及提供企业需要改进的地方、出现的问题以及做得好的地方。
一般来说,数据分析具有3个价值,如图1-1所示。
图1-1 数据分析的价值
数据分析,在产品的整个寿命周期、市场调研、售后服务、最终处置的各个过程中都应得到适当的运用,才能提升有效性。例如,一个企业的领导人通过市场调查,分析所得到的数据,来判定市场动向,制订合适的生产及销售计划。
又例如,麦克拉伦车队通过汽车传感器,在赛前的场地测试中采集数据,结合历史数据,通过预测型分析发现赛车问题,并预先采取正确的赛车调校措施,不仅降低了事故几率,还提高了比赛胜率。因此,数据分析有极广泛的应用范围,可以为企业提供决策以及安全指导。
如今,不管是在互联网上,还是在现实生活中,企业在广告投放前,都会习惯进行数据分析。一般企业都会针对两点进行分析:
·对目标群体的特征进行数据分析,如目标群体是18~25岁的年轻女性,还是30~45岁的成熟男性。
·对群体的购物活动轨迹进行数据分析。
简单来说,企业可以通过数据分析,来了解目标客户群喜欢做什么事、在什么时间、什么地点。找到他们的生活轨迹,企业就能通过数据分析随时调整投放产品的方式、营销策略等。数据分析帮助人们做出正确的判断,以便采取适当行动。
专家提醒
数据分析在企业的日常经营分析中,具有以下三大作用。
·现状分析,提供企业现阶段整体运营情况,以及企业各项业务的构成,其中包括各项业务的发展以及变动情况。
·原因分析,确定企业所存在问题的原因,针对原因做出相应的解决方案。
·预测分析,对企业未来的发展趋势做预测,便于企业制订运营计划。
1.1.2 数据分析的基本步骤
数据分析主要包括6个循序渐进的基本步骤,它们缺一不可、相辅相成,也是企业在运用数据分析的时候,必不可少的步骤,如图1-2所示。
图1-2 数据分析的基本步骤
1.明确分析目的
不管做什么事,都需要有一个目的,这样才能思路清晰,数据分析也不例外。人们在分析数据的时候,一定要知道分析数据的目的,不能只一味地寻求数据的数量,应该透过数量看本质。
明确数据分析的目的,才不会偏离方向,使决策者做出正确的决策,远离歧途;才能确保数据分析有效进行,为数据的收集、处理、分析提供清晰的指引方向。
2.数据收集
数据收集是按照确定的数据分析目的,来收集相关数据的过程,它为数据分析提供依据。而一般数据来源于4种渠道,如图1-3所示。
图1-3 数据来源渠道
(1)数据库
如今,几乎每一个企业都会有一个专属的数据库,一般存放的是企业各项业务的相关数据。数据库中的数据是相当庞大的,如果加以利用,定能为企业数据分析做出巨大的贡献。
(2)互联网
互联网属于一个开放性发布消息的地方。随着数据分析被各大企业所运用,网络上也出现了一大批的数据。提供数据的网站也非常多,如传播媒体网站、大型综合门户网站、行业组织网站等,因此可以利用搜索引擎来收集数据。
(3)市场调查
市场调查是运用科学的方法,进行有目的、系统地收集、记录、整理有关调查信息和资料,为市场预测和营销决策提供客观的数据资料。
(4)公开出版物
可以收集一些公开出版物里与企业业务相关的数据。这些出版物里面的数据是比较权威的,真实性比较强。
3.数据处理
数据指数字、符号、字母和各种文字的集合,可以用计算机收集、记录。而数据处理涉及的加工处理比一般的算术运算要广泛得多,其中的处理,是指以下7个方面工作中一个或者多个组合,最后绘制成文字和数字的表格或图表。
·据采集,采集所需的信息。
·数据分组,指定编码,按有关信息进行有效的分组。
·数据组织,整理数据或用某些方法安排数据。
·数据计算,进行各种算术和逻辑运算。
·数据存储,将原始数据或计算的结果保存起来,供以后使用。
·数据检索,按消费者的要求找出有用的信息。
·数据排序,把数据按要求依次排成序列。
专家提醒
如今,数据处理已经广泛地用于各种企业和事业,内容涉及票据收发、生产调度、计划管理、销售分析等。
4.数据分析
一般企业都会把数据分析划分为定性数据分析、验证性数据分析、探索性数据分析3种方式,如图1-4所示。
图1-4 数据分析方式
探索性数据分析,是一种对数据进行分析,从而检验“假设值”的形成方式,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。定性数据分析是指对词语、照片、观察结果之类的非数值型数据进行的分析。
5.数据展现
数据的展现在数据分析步骤中是一个重要的角色,只有将收集的数据通过处理和分析,形成有用的信息,并且用常用的柱形图、饼图、条形图、折线图等来进行展现,才能让人们一目了然地发现数据的本质以及作用,如图1-5所示。
图1-5 常用数据展示形式
6.报告撰写
报告撰写是数据分析的最后一步,是整个数据分析过程的总结,是给企业决策者的一种参考,为决策者提供科学、严谨的决策依据。
一份优秀的数据分析报告,需要有一个明确的主题,需要一个清晰的目录,图文并茂地阐述数据、条理清晰地展现,使决策者能一目了然地看出报告的核心内容。这样既能给阅读人以视觉上的冲击,又能很明确地阐述数据分析的核心内容。
最后,需要加上结论以及建议,这样不仅可以给决策者指出问题,还可以提供方案和想法,以便决策者在决策时作为参考。
1.1.3 数据分析的4大误区
在实际工作、学习中,数据分析人员常常会陷入4个误区,而这些误区很有可能导致数据的不完整,缺乏针对性,影响决策者做出正确的决策。下面就来讲一讲到底是哪4大误区,如图1-6所示。
图1-6 数据分析的4大误区
1.忽略数据分析的核心,为了数据而分析
很多数据分析师在分析数据的时候,都是带着“怎样才能把这些数据用图表完美地展现出来?”“需要用多少张图”等数据展现上的问题,而这些问题并没有明确数据分析的目的、核心。
所以,数据分析师在分析数据的过程中,应该围绕企业现状、业务变动情况及原因、预测未来趋势来进行分析,这样才能扣住数据分析的核心,才能体现出数据分析的价值。
只有这样,分析出来的数据才能对决策者有参考意义,才能不浪费时间并做出有用的数据分析资料,才能对企业有实际上的改善作用。
2.忽略业务知识,数据偏离实际轨道
目前很多数据分析师都是统计学、数据处理、计算机等专业出身,他们大多缺乏管理和营销方面的工作经验,所以在进行数据分析的时候大多都是从数据分析本身出发。
但是对于决策者来说,这样的数据分析并不具有实用性。数据分析报告的内容做得再精美,因为没有切合实际业务,也得不到全面、综合性的结论。这样的数据分析只是“空白”资料,对决策没有什么实际意义。
所以,数据分析师在分析数据的时候,应该从企业业务出发,需要懂管理、懂营销、懂策略,这样才能做出一份有含金量的数据分析。
3.忽略业务问题,追求高级分析模型
有很多数据分析师,总认为高级分析模型(回归分析、因子分析等)是专业的,就一味地使用高级分析模型,以体现自己分析出来的数据具有专业性。其实这样的想法不完全对。
数据分析师只要能够用数据,简单地说明在企业业务中出现的问题、出现问题的原因以及解决方法,就能很好地诠释出数据的核心以及质量。如果数据分析做得很漂亮,但是决策者看不懂,不能一目了然地明白数据所表达的意思,那无疑是失败的数据分析。
4.为数据而找数据,迎合观点
很多数据分析师在分析数据之前,很有可能自己就有一个观点或者决策者有一个观点,然后他们就会围绕这个观点来进行数据分析。这样很有可能导致数据的不完整性,使数据具有局限性,分析出来的数据也不一定是正确的,只会误导决策,使企业蒙受一定的损失。
所以,在进行数据分析的时候,应该保持中立的状态,客观真实地去分析数据,尽量不要“为了迎合一个观点而去找数据”,减少利益牵扯,这样的数据分析才是有价值的。
1.1.4 几个常用术语
一个优秀的数据分析师,必须熟练掌握几个常用的术语,才能快速地把数据一一分析出来;如果数据分析师没能攻破这几个常用术语,就会无法进行数据分析工作。下面就来讲解6种常用术语,如图1-7所示。
图1-7 数据分析的6种常用术语
1.平均数
平均数是在数据分析中最常用的分析量,即全部数据的总和÷数据个数,用于表示各观测值相对集中较多的中心位置,可以说是对数据集中趋势的反映。平均数包括算术平均数、几何平均数、调和平均数、众数和中位数,其中算术平均数在数据分析中运用得最广泛。
算术平均数是指,各观测值的总和除以观测值个数所得的商,简称平均数或均数。在数据分析上的优点就是可以代表总体一般的水平,掩盖了总体内各单位的差异,缺点是它更容易受到极端数影响。
例如某个学期某个班上学生的英语考试成绩,通过计算平均数,来获取整个班的英语成绩情况,用同学自己的成绩与平均成绩来比较,得出哪些同学需要加油,哪些同学需要保持,如图1-8所示。
图1-8 英语平均成绩
2.百分比与百分点
百分比表示一个数是另一个数的百分之几,也称百分率或百分数。百分比通常采用百分号(%)来表示,百分比的分母都是100,如图1-9所示。
图1-9 百分比算法和表现形式
百分点是指不同时期以百分数的形式表示的相对指标的变动幅度(提高、降低、变动),也就是都以1%作为度量单位,如12%就可以表示为12个百分点。
例如,某农业公司在开会的时候提到了水稻产量的波动幅度,在发言时就很容易混淆百分比与百分点,如图1-10所示。
图1-10 百分比与百分点
3.比例与比率
比率是指在总体中,各部分的数值占整体数值的比重,通常反映总体的构成和结构。假如一个整体有20个人,其中12个成年人,8个儿童,那么成年人在总体中所占比率是12:20,儿童在总体中所占比率是8:20。
比例是指不同类别数值的对比,它反映的不是部分与整体之间的关系,而是一个整体中各部分之间的关系。比如一个整体有20个人,其中12个成年人,8个儿童,那么成年人与儿童之间的比率为12:8,如图1-11所示。
图1-11 比率与比例
4.倍数与番数
倍数是一个数÷另一个数所得的商,如9÷3=3,就是说9是3的3倍,而番数是指原来数量的2的N次方倍(2n),如翻一番为原来数量的2倍(2的1次方=21),翻两番为4倍(2的2次方=22)。
例如,某公司在开会的时候提到了月销量,在发言时就很容易混淆倍数与番数,如图1-12所示。
图1-12 倍数与番数
专家提醒
值得注意的是,倍数一般是表示数量的增长或上升幅度,不适合表示数量的减少或下降。
5.绝对数与相对数
绝对数可以反映以下2种客观现象。
·在一定时间、地点条件下数量增减变化的绝对数,比如A企业产品销量比B企业产品销量少了2000件。
·在一定时间、地点条件下的总规模综合性指标,如总人口数、某地区总人群特点等。
相对数是用于反映客观现象之间数量,相互间联系程度的综合指标,其计算公式如图1-13所示。
图1-13 相对数计算公式
专家提醒
相对数一般以倍数、百分数等表示,使用相对数时需要注意指标的可比性,同时要与绝对数结合使用。
6.频数与频率
频数是指一组不同类别数据重复出现的次数。如某仓库共20件产品,按产品类别进行分组,分为电视机和风扇两个组别,电视机的频数为15,风扇的频数为5,如图1-14所示。
图1-14 频数
频率是每组类别次数与总次数的比值,它代表某类别在总体中出现的频繁程度,一般采用百分数表示,所有组的频率加总等于100%。如以以上仓库产品为例,15台电视机在20件产品中出现的频率为75%,即(15÷20)×100%;而5台风扇在20件产品中出现的频率为25%,即(5÷20)×100%,如图1-15所示。
图1-15 频率
专家提醒
除了以上几种数据分析常用术语之外,还有属于电商企业数据分析的专业术语,其中包括环比、同比、用户快照分析、沉睡率、唤醒率、平均回购周期等。