数据分析思维:分析方法和业务知识
上QQ阅读APP看书,第一时间看更新

2.5 对比分析方法

2.5.1 什么是对比分析方法?有什么用?

对比分析方法在我们生活中经常遇到。女友天天对我进行灵魂拷问:我和对面那个女孩谁胖?这就是对比分析方法。

女友通过对比分析方法来判断自己体重是不是出了问题。在数据分析中,我们通过对比分析方法,来追踪业务是否有问题。例如,我的公众号日活跃率是4%,你说是高还是低?这个日活跃率有问题吗?这时候,就需要用对比分析方法来追踪业务是不是有问题。正所谓,没有对比就没有好坏。

我们再来看一个对比分析方法在生活中应用的案例。为了讨好女友,我准备给她买件衣服,在商场看中一件衣服要299元。我心里想,299元是不是有点小贵。店主过来指着另一件衣服说:“你看这件衣服,只要899元!”

我一比较,顿时觉得299元这件衣服挺实惠的。

发现没有?899元的那件衣服根本就不是拿来卖的,而是用来让你对比的。

心理学家给这种现象发明了一个术语叫作价格锚定(图2-37),也就是通过和价格锚点对比,一些商品会卖得更好。

图2-37 价格锚定

《经济学人》是美国的畅销经济学杂志,它做过一个订阅实验,给用户以下3个选项进行选择:

(1)只订阅电子版,59美元一年;

(2)只订阅纸质版,125美元一年;

(3)订阅纸质版+电子版,125美元一年。

第2个选项和第3个选项的价格一样,但是第3个选项提供的服务更多。

实验结果显示,只有16%的人选择了第1个选项,有84%的人选了第3个选项,也就是有更多的人愿意花更多的钱去订阅杂志(图2-38)。

图2-38 实验结果

如果把第2个选项去掉,对用户有影响吗?

去掉第2个选项,选择125美元(原来的第3个选项)的用户减少到了32%(图2-39)。

图2-39 去掉第2个选项的结果

如果没有之前第2个选项,用户会和第1个选项对比,发现花125美元不划算。当有第2个选项的时候,用户就会将比较对象换成第2个选项,这样才能体现出第3个选项的优惠。

2.5.2 如何使用对比分析方法?

想要进行对比分析,我们要弄清楚两个问题:和谁比,如何比较。

1.和谁比

和谁比一般分为两种:和自己比,和行业比。

雷军在小米上市之前做了一个公开承诺:“小米的硬件综合净利润率永远不会超过5%。如有超过的部分,将超出部分全部返还给用户。”我们用对比分析方法来分析下这句话背后的真实含义。

1)和自己比

在小米的招股说明书中可以看到,小米2015年的硬件毛利率是-0.3%,2016年是3.4%。净利润率=毛利率-其他成本,所以再考虑上其他成本,小米和自己的历史业绩比,硬件净利润率肯定小于5%。

2)和行业比

遇到问题,想知道是行业趋势还是自身原因,就可以和行业值对比。作为硬件行业的领头羊海尔公司,在2017年净利润率是4.3%,也达不到5%。

所以,通过对比分析方法可以看出,硬件净利润率能达到5%的公司几乎就没有,所以雷军这个承诺其实是一种经过数据分析得出的结论,既不会让小米陷入无法实现承诺的困境,又可以在用户心中留下“小米性价比高”的产品形象。

2.如何比较

前面我们了解了对比分析方法的第一个问题:和谁比。现在我们来看第二个问题:如何比较。一般从3个维度比较:数据整体的大小、数据整体的波动、趋势变化(图2-40)。

图2-40 如何比较

1)数据整体的大小

某些指标可用来衡量整体数据的大小。常用的是平均值、中位数,或者某个业务指标。

2)数据整体的波动

标准差除以平均值得到的值叫作变异系数。变异系数可用来衡量整体数据的波动情况。

3)趋势变化

趋势变化是从时间维度来看数据随着时间发生的变化。常用的方法是时间折线图,环比和同比。

时间折线图是以时间为横轴、数据为纵轴绘制的折线图。从时间折线图上可以了解数据从过去到现在发生了哪些变化,还可以通过过去的变化预测未来的动向。

环比是和上一个时间段对比,用于观察短期的数据集。例如本周和上周对比,本月和上月对比(某数据在2020年12月比2020年11月下降10%)。

同比是与去年同一个时间段进行对比,用于观察长期的数据集。例如某数据在2020年12月比2019年12月下降10%(图2-41)。

图2-41 环比和同比

前面我们知道了比较的两个问题:和谁比、如何比较。在实际应用对比分析方法的时候,为了防止遗漏我们可以用图2-42的“对比表格”来记录比较的维度,防止遗漏重要信息。

其中,第一列是比较的维度,中间几列是比较对象,最后一列是比较结论,用于记录每一行的比较结果。

图2-42 对比表格

2.5.3 注意事项

在进行比较的时候,要注意比较对象的规模要一致。例如,折线图(图2-43)的横轴是月份,纵轴是每天平均销售额。从这个折线图反映的趋势来看,似乎可以得出比较结论:地区B的业务没有其他地区的好。

图2-43 折线图

当你把这个图表和分析结论拿给领导看时,领导说:“这些地区的店铺数量不一样,直接比较可以吗?”原来图片里统计的是公司在各个地区的店铺总销量,各地区店铺数量不一样,也会影响所在地区的销售额。这就好比,苏宁易购在某一线城市和某三线城市的店铺数量不一样,两地每天的平均销售额差别也很大(图2-44)。

图2-44 各地区店铺数量

所以,比较对象的规模要一致,这样才有可比性。那么这个案例里的问题如何解决呢?

可以用每个地区的销售额除以店铺数量,这样就可以算出各个区域的单个店铺的平均销售额。从图2-45可以发现,与其他地区相比,地区B的销售业绩并不差。

图2-45 各地区单个店铺销售业绩

A/B测试的背后也是用了对比分析方法。什么是A/B测试?

做过App功能设计的读者朋友可能经常会面临多个设计方案的选择,例如某个按钮是用蓝色还是黄色,是放左边还是放右边。传统的解决方法通常是集体讨论表决,或者由某位专家或领导来拍板,实在决定不了时也有随机选一个上线的。虽然传统解决办法多数情况下也是有效的,但A/B测试可能是解决这类问题的一个更好的方法。

简单来说,A/B测试就是为同一个目标制定两个版本,这两个版本只有某个方面不一样,其他方面保持一致。例如两个版本只有按钮的颜色不一样,让一部分用户使用A版本(实验组),另一部分用户使用B版本(对照组)。试运行一段时间后,分别统计两组用户的表现,然后对两组数据进行对比分析,最后选择效果更好的版本正式发布给全部用户(图2-46)。

图2-46 A/B测试

A/B测试是怎么来的呢?

2007年,谷歌的产品经理丹·西罗克是奥巴马竞选团队“新媒体分析部门”的负责人。他用A/B测试优化了竞选网站的“捐款”按钮,使得捐款金额增加了5700万美元。他对这个“捐款”按钮做了什么呢?

西罗克在奥巴马捐赠页面上进行了A/B测试,发现:

(1)对于第一次访问竞选网站的用户,按钮文字是“捐赠并领取礼物”效果最好;

(2)对于长期访问竞选网站,但是从来没有捐款的用户,按钮文字是“捐款”效果最好;

(3)对于过去曾经捐过款的用户,按钮文字是“捐助”效果最好。

在奥巴马就任总统后,西罗克创办了一家网站优化公司(Optimizely),这家公司的客户名单里是各个总统的竞选团队。

现在A/B测试已经广泛应用于互联网公司的产品优化。例如,缤客是一家线上国际旅游公司,类似于携程。这家公司每年要做大量的A/B测试来提升用户体验。

这家公司是如何做A/B测试的呢?

一般而言,如果一家公司要做A/B测试,要设立一个专门的团队。但是缤客通过内部一个专门做A/B测试的平台,把A/B测试这件事情变得简单,几乎每个员工都可以方便地进行各种测试来验证自己的想法。

在这家公司做A/B测试的流程是这样的:

(1)发起申请,在申请里写清楚:为什么做这次A/B测试?A/B测试的受益者是用户还是旅行社?以前做过哪些A/B测试?

(2)如果申请通过,A/B测试就上线了。平台会自动监控测试过程和生成分析报告。

再来看一个案例。在经济形势不好的时候,拉动消费有一个办法是发消费券。用户领取消费券后,在结账的时候就可以抵扣对应的金额。但是消费券还有个不好的影响—日本曾经向用户发放过消费券,但是效果却不好。因为一旦不发消费券了,消费很快就会下降,也就是没有长期效果。

为了拉动受疫情影响的消费,杭州在2020年3月底到4月向本地居民发放了消费券,效果如何呢?北京大学光华管理学院的研究团队和蚂蚁金服研究院联合发布的一份报告,对这次消费券发放效果进行了研究。

研究团队使用的方法就是A/B测试。实验组是杭州3月27日第一期消费券发放后的用户,对照组是没有领消费券的用户。在消费券过期后,与对照组相比,实验组的消费没有明显减少。也就是说,用户并没有因为之前用了消费券,之后就减少消费,所以这次消费券发放效果很好。

这次效果好的原因在于,之前日本发的是实体现金券,而这次杭州发的是数字消费券。数字消费券的一大好处就是方便,用户在支付宝、微信等平台上就能领取。

2.5.4 总结

可以用图2-47记住对比分析方法。

图2-47 对比分析方法

第1个问题:是什么?

当我们对几个对象进行比较的时候,就要用到对比分析方法。正所谓,没有对比就没有好坏。

第2个问题:有什么用?

在日常生活中,我们经常会用到对比分析方法,例如女友通过对比分析方法来判断自己体重是不是出了问题。

在心理学中有“价格锚定”,通过和价格锚点对比,一些商品会卖得更好。

在数据分析中,我们通过对比分析方法,来追踪业务是否有问题,例如A/B测试。

第3个问题:如何用?

进行对比分析,我们要弄清楚两个问题:和谁比,如何比较。

和谁比是指,要弄清楚是和自己比还是和行业比。和自己比是指和自己过去的历史数据比较。遇到问题,想知道是行业趋势,还是自身原因,就可以和行业值对比。

对于如何比较,一般我们有以下3个维度:

(1)用平均值、中位数,或者某个业务指标来衡量整体数据的大小。

(2)用变异系数来衡量整体数据的波动情况。

(3)从时间维度来看数据随着时间发生的趋势变化。常用的方法是时间折线图、环比和同比。

我给出了一个对比表格模板(图2-48),你可以把它看作一个万能模板,防止遗漏比较的信息。每当进行对比分析的时候,把这个表格填满就可以了。

第4个问题:注意事项。

在进行比较的时候,要注意比较对象的规模保持一致。

图2-48 对比表格模板