2.4 多维度拆解分析方法
2.4.1 什么是多维度拆解分析方法?
对于多维度拆解分析方法,要理解两个关键词:维度、拆解。我们通过一个案例来说明(图2-22)。
图2-22 多维度拆解案例
老妈看扎扎单身多年,给她介绍相亲对象。
老妈:“这个男生很优秀。”
扎扎:“怎么优秀了?”
老妈:“你看这小伙子,个字高,长得又帅,而且家庭条件也不错。”
扎扎:“哦,原来是个高富帅呀。”
什么是维度呢?
老妈从不同的角度来看这个男生,这里的角度就是维度。
什么是拆解呢?
拆解其实就是做加法,A=维度1+维度2+维度3+…,上面的例子中,老妈把优秀拆解成个子高、家庭背景好、长得帅(图2-23)。也就是优秀=个子高(维度1)+家庭背景好(维度2)+长得帅(维度3)。
图2-23 多维度拆解方法
2.4.2 多维度拆解分析方法有什么用?
我们先来看一个案例。2012年中国15~59岁的劳动年龄人口数量为9.37亿人,比上年末减少345万人,下降幅度为0.6个百分点。这是多年增长后劳动年龄人口首次下降。这一人口结构变化趋势意味着在中国人口红利消失,老龄化人口越来越多。如果你的亲戚去医院看病,不知选择哪家医院更好,这时候你学到的分析方法能起到非常关键的作用。
假设在每个医院最近收治的1000例患者中,A医院有900例患者存活。然而,B医院只有800例患者存活(图2-24)。这样看起来,A医院的存活率更高,应该选择A医院。你的选择真的是正确的吗?
图2-24 医院对比
现在我们使用多维度拆解分析方法来看下。
光看患者整体时,我们可能注意不到“数据构成要素的差异”。现在根据患者的健康状况,我们将每家医院入院的总人数拆解为两组,一组是轻症患者,一组是重症患者(图2-25)。然后我们再来计算患者存活率,会有什么发现呢?
图2-25 对患者拆解
我们来比较A医院和B医院的重症患者组。
A医院有100例患者入院时是重症患者,其中20例存活。
B医院有400例患者入院时是重症患者,其中200例被救活了。
所以,对于重症患者,去B医院的存活率更高,是更好的选择(图2-26)。
图2-26 重症患者分析
那如果亲人入院时是轻症患者呢?用同样的方法分析,出人意料,轻症患者在B医院的生存率也超过了A医院的生存率,B医院依旧是更好的选择。
通过多维度拆解数据,我们发现了和一开始截然相反的结论,这种现象被称为“辛普森悖论”(Simpson’s Paradox),也就是在有些情况下,考察数据整体和考察数据的不同部分,会得到相反的结论。
只看数据整体,我们可能注意不到“数据内部各个部分构成的差异”。如果忽略这种差异进行比较,就有可能导致无法察觉该差异所造成的影响。正如前面的案例,关注数据整体(入院的全部患者)和关注数据内部的不同部分(按健康状态将患者拆解为两组数据),就看到了不同的风景。
这就好比我们玩过的俄罗斯套娃,整体看是一个,拆解开以后里面还有其他东西(图2-27)。
图2-27 整体与部分
所以,我们需要从多个维度去观察数据,并相互验证,才能得出相对可靠的结论。例如我们可以把用户拆解成:用户=老用户(维度1)+新用户(维度2),从而可以看到老用户和新用户的数据表现分别是什么。
辛普森悖论时不时出现在现实生活中。英国一项调查显示,在20年里,吸烟者生存率高于不吸烟者。但是把参与者按年龄维度分组后,发现不吸烟组人群的平均年龄显著较高,所以年龄才是导致不吸烟组生存率低的原因。
2.4.3 如何使用多维度拆解分析方法?
那么问题就来了,从哪些维度去拆解呢?
一般会从指标构成或者业务流程的维度来拆解。
1)从指标构成来拆解
从指标的定义来看指标的构成。例如,某店铺最近做了一个活动,但是活动后发现预期销售额没达成,原因是什么呢?可以从指标定义来拆解,销售额=新用户销售额+老用户销售额,所以销售额可以拆解为新用户销售额、老用户销售额。然后可以继续拆解新用户的转化和老用户的复购:
新用户销售额=新用户数×转化率×新用户客单价;
老用户销售额=老用户数×复购率×老用户客单价。
这样拆解后,有利于后续找到原因来制定对应的决策。如果是“新用户”导致的销售额目标没达成,可以对新用户发小额无门槛的折扣券,因为新用户往往还没有对店铺建立信任,不会第一次就购买很多。如果是“老用户”导致的销售额目标没达成,可以对老用户发高额满减折扣券,起到提升复购率的效果。
2)从业务流程来拆解
按业务流程进行拆解分析,例如按用户购买产品的业务流程来拆解。
现在通过一个例子来学习如何使用多维度拆解分析方法。一家线上店铺做了一波推广,老板想看看推广效果如何,你该怎么办呢?
推广效果最直观的是看用户增长了多少,定义衡量指标为新增用户数。这里的新增用户数是指看到推广渠道的广告,进入店铺的人数。
我们可以按指标构成如城市、性别、渠道来拆解新增用户数(图2-28)。
图2-28 从指标构成拆解
按照地域细分,考察一线、二线、三线及以下等不同城市的新增用户数量情况。
按照性别细分,考察男性用户、女性用户分别是多少。
按照渠道细分,考察公众号、百度、头条哪个渠道的用户来源多。
从地域维度(图2-29)来看,北京、上海等一线城市新增用户多,说明一线城市的用户对公司产品更感兴趣。
图2-29 地域维度
从性别维度(图2-30)来看,男性用户多于女性用户。
图2-30 性别维度
从渠道维度(图2-31)来看,假设渠道A新增用户数最多,渠道B新增用户数接近A,渠道C新增用户数最少。那么,渠道A、渠道B、渠道C哪个用户渠道的质量更高呢?
图2-31 渠道维度
店铺做推广的目的,最终是为了给店铺带来销量,所以我们可以从业务流程来拆解分析,考察哪个渠道来的用户更愿意在店铺购买。
我们可以继续从业务流程来拆解渠道数据。用户购买的业务流程,可以分为4步:
第1步,看到渠道的广告;
第2步,被广告吸引进入店铺;
第3步,在店铺选择感兴趣的商品;
第4步,选择好商品,最终决定购买。
按业务流程拆解后,我们看到虽然渠道A带来的用户多,但是最终购买人数却低于渠道B带来的用户数。所以,渠道B的用户质量更高(图2-32)。
图2-32 从业务流程拆解
再来看一个案例,来更加熟悉多维度拆解分析方法。
有一款App,在观察用户留存率的时候,发现低年龄用户的留存率比高年龄用户的留存率低很多。这里的低年龄用户是指18岁以下的用户,例如初中生、高中生。进一步观察发现,这些低年龄的用户大多是使用一下App就再也不用了。
根据这个问题,可以从指标构成、业务流程来拆解问题。
1)从指标构成拆解
如果把18岁以下都算作低龄,那么这个划分又不够细,因为18岁以下包含了3个学生阶段:小学生、初中生、高中生。不同学生阶段的用户行为差异是比较大的,所以可以按年龄维度来细分(图2-33)。
图2-33 从指标构成拆解
由此得到分析维度1:不同的低龄用户表现是否有差异?
2)从业务流程拆解
新用户使用App的业务流程如下:
第1步,新用户下载App,然后注册;
第2步,用户看到App首页推荐的内容。新用户注册的时候,App会让用户选择感兴趣的话题,然后App根据用户的选择,给他推荐相关的内容。例如豆瓣、小红书等App就是这样的注册流程。
推荐的内容如果不准确,会影响用户的体验。例如我挑选兴趣的时候选了电影,结果推荐系统给我推荐了旅行,那跟我的预期就会差很远,就会觉得这个平台没有我想看的信息,自然就会离开。所以,这一步我们可以提出问题:推荐的内容可能不是低年龄用户想看的,从而导致留存率差。
第3步,用户还可能会在App里搜索自己感兴趣的内容。
当用户下载了这个App注册的时候,希望在这个平台上找到对自己有价值的东西。如果没找到,那用户很大概率会流失。这一步我们可以提出问题:低年龄用户可能搜不到想看的内容,从而导致留存率差。由此我们得到分析维度2和分析维度3(图2-34)。
图2-34 从业务流程拆解
从指标构成和业务流程拆解,我们就将一个复杂的问题拆解为3个子问题(图2-35)。
图2-35 拆解过程
2.4.4 注意事项
前面我们讲到,只看数据整体,可能注意不到“数据内部各个部分构成的差异”,导致“辛普森悖论”。所以在有些情况下,考察数据整体和考察数据的不同部分,会得到相反的结论。
2.4.5 总结
可以用图2-36记住多维度拆解分析方法。
图2-36 多维度拆解分析方法
第1个问题:是什么?
对于多维度拆解分析方法要理解两个词:一个是“维度”,即我们日常生活中说的角度;另一个是“拆解”,其实就是做加法,问题=维度1+维度2+…
第2个问题:有什么用?
有两个作用。第一个作用是,只看数据整体,我们可能注意不到“数据内部各个部分构成的差异”,所以需要拆解数据来分析。
第二个作用是,遇到一个复杂问题,不知道怎么解决的时候,我们可以用多维度拆解分析方法将一个复杂问题变成可以解决的子问题。这背后的原理其实就是我们之前讲过的逻辑树分析方法。
第3个问题:如何用?
一般会从指标构成或者业务流程的维度来拆解。
(1)从指标构成来拆解:分析单一指标的构成。例如单一指标为用户,而用户又可以拆解为新用户、老用户。
(2)从业务流程来拆解:按业务流程进行拆解分析,例如不同渠道的用户付费率。
第4个问题:注意事项。
要注意“辛普森悖论”,也就是在有些情况下,考察数据整体和考察数据的不同部分,会得到相反的结论。使用多维度拆解分析方法,可以防止“辛普森悖论”。