第1章 数据的“规则”
数据是一种工具。
工具是人类手脑功能的延伸,但人类的优越性还体现在有目的地制造工具和有计划地使用工具。用一个复杂的工具——汽车来举例。从准备原料到加工再到出厂,每一步都有明确的目的;而在驾驶汽车的过程中,又有一套完整的操作规范。如果违反这套规范,轻则达不到目的地,重则车毁人亡。
与其他工具一样,数据也有自己的“玩法”。如何产生数据、搜集数据、应用数据,才能达到预期的目标?在这些过程中应该注重哪些逻辑性和规律性?这些正是人们在使用数据这个工具的过程中需要不断探究和摸索的。
在这一章,我们将讨论数据自身具有哪些特性,以及在与数据打交道的时候,需要注意哪些事情。
1.1 数据的应用是一个“拼图游戏”
每种工具都是为了解决一类问题而存在的,数据应用也不例外。而每一类问题,都有自己的特点和最适合的解决思路。找到最适合的思路,才能最高效地解决问题。因此,在我们讨论数据应用的具体方法之前,先来了解一下数据应用究竟是一类什么样的问题。
随着互联网产品的同质化现象日趋严重、市场竞争愈演愈烈,对产品进行精准分析的需求也越来越强烈,对数据应用水平的要求也越来越高。不管是时下热门的大数据技术,还是基于大数据进行的精准推荐、精准营销等方法,都在围绕数据应用的问题不断深挖下去。但数据的应用并不像听上去那么简单易行。当我们身处其中,需要具体地去设计和执行每一个细节的时候,它的另一面就展现出来了——数据应用是一个严谨的、复杂的,甚至有时是让人摸不着头脑的工作。它要求相关人员既有对相关业务宏观和微观的理解,又要具备良好的数学计算、抽象思维等基本能力。
打开这本书,相信你多少接触到了一些数据应用方面的工作。你可以试着回想一下,最开始自己是如何走上数据道路的呢?情况很有可能是,有一些很具体的业务问题摆在你的面前,等着你给出解决办法。比如:
❑产品上线初期,亟待获得市场的反馈,并通过得到的数据验证最初产品的构想,为产品下一步发展找到具体的方向。
❑产品发展到一定阶段开始遇到瓶颈,增长曲线趋于平缓,需要通过收集产品的数据,找到下一个突破口。
❑一直运转良好的业务,某天突然出现下滑或者激增,不知道问题出在哪里。
……
不难看出,这些问题有相似之处:
第一,每个问题的背后都有一个提前设定的“理想状态”,在考虑现实情况的时候,这个“理想状态”就被作为对比的基准。如果现状不够令人满意的话,这个“理想状态”又变成了下一步工作的目标。
在产品上线之前,我们对于产品上线后的状态、未来的发展及市场对业务可能做出的反应都有所预期,甚至已经做了大量的前置研究,并通过各种可能的方式提早进行验证。但不管前期准备多么充分,产品上线之后才是真正“用事实说话”的时候。我们需要通过市场真实反馈的数据,将现实状态与理想状态进行对比,进而思考下一步的工作。
在产品的发展趋于平缓的情况下,产品当前的发展速度要明显低于预想的发展速度。在现实的工作场景中,未必像示例中的情况这么极端。只要我们能够及时、准确、全面地获得想要的数据,那么当现实情况与理想情况稍有偏差时,团队会快速设计出优化方案,以应对这种“反常情况”。
当业绩突然出现下滑的时候更是如此。如果发现最新的数据明显不如日常的平均水平,必定会“惊动”整个团队,此时需要立即抓住这个时间点的数据进行深入分析。很多时候,这类工作都等不到第二天天亮就已经开始了。
第二,如果现在的状况偏离了工作的目标,我们就会进行一次次的优化尝试,直到达到设定的目标为止。
如果产品上线之后,发现市场的反馈并不如预想的好,那么我们就会开始尝试调整产品自身的形态、业务模式,或者调整产品触达用户的方式,再或者尝试其他非产品化的运营方式,如通过各种形式教育用户、教育市场等。每一次的尝试,都会对产品自身及产品所处的市场环境产生不确定的短期影响和长期影响。我们只能根据获得的最新数据来考虑下一步应该做什么。
在产品发展平缓的时候同样如此。我们会把收集到的历史数据拼接起来,再按照不同的分析角度详细拆解,如按照不同的用户群、不同的流程阶段、不同的渠道等。然后根据拆分之后的产品模块,找出哪个部分实现预期目标的可能性最大、成本最低、长远影响最佳。
例如,随着Growth Hacking(常翻译为“增长黑客”)理念而一同大热的分析模型——“AARRR模型”,便是采用了这种拆解之后逐个击破的办法。模型把用户在产品上不断演变的过程拆分开,逐个检查其是否存在优化的空间。这种思路与企业管理领域中由以色列物理学家高德拉特(Eliyahu M. Goldratt)博士创立的TOC(Theory Of Constraint,中文译为“瓶颈理论”“制约理论”或“约束理论”)理论不谋而合。
产品业绩下滑的情况与前两种类似,不再赘述。
第三,不仅每一次的尝试会对产品产生影响,而且经过了一次次的尝试之后,每一次尝试之间也会相互影响。因为每一次尝试优化之后,产品和环境都发生了变化。因此,下一次尝试与前一次尝试的目标和方向多少会有些差别。
比如,在产品上线之后,发现市场反馈与预期不一致。假设此时我们有三种备选方案:调整产品形态、调整业务模式及非产品化运营。为了简化说明,我们将这三种方案简称为A、B、C方案。那么,不管我们使用哪种方案,三种方案面临的状况与想要达到的目标都是基本相同的。但是,如果我们首先选择了A方案,并且最终发现效果并不理想,那么此时,对于B方案和C方案来说,产品和市场都已经发生了一些变化,必须针对新的产品状况和市场环境重新调整,形成B+方案和C+方案,然后继续。其他两类问题也是如此。这就是数据应用中体现出的“观察者效应”——随着我们研究问题并进行各种方案的尝试,我们也在改变着这个问题本身。
说了这么多拗口的话,不如我们用一个拼图游戏来类比这个过程。
在玩拼图的时候,最终预期结果是十分明确的,我们可以从拼图的盒子上看到我们想要拼出的完整图案的样子。更重要的是,这幅图案在整个游戏的过程中都是不会改变的。因此,在整个游戏过程中,这幅图案就像大海上的灯塔一样,我们可以根据这幅图案来判断每一片拼图在整个图案中的位置。随着游戏的进行,整幅图案被清晰地分成两部分:已经拼好的部分和空缺的部分。而且更重要的是,已经拼好的部分会随着游戏的进行而不断改变。如图1-1所示,假设A部分是已经拼好的部分,而B部分是没有拼好的部分。可见,虽然最终的目标都是相同的,但图1-1中的四种情况各有各的具体问题要处理。在拼图中,针对一片拼图应该放在什么位置,完整的图案能提供的帮助非常有限,必须依据已经拼好的部分来决定。
图1-1 拼图中的具体问题
这个状况就与前面所说的数据应用中的状况非常相似了:每一次的产品调整方案都会受到上一次方案实施的影响。最终目标对方案细节的帮助比较有限。这些细节的调整,依赖于此时此刻具体的产品状态和环境。甚至,就像“一片关键拼图的出现,导致更多片拼图需要调整自己的位置”一样,一个关键的分析结论或新获取到的数据也可能撼动之前所有的思路和方向。比如产品的目标用户群设定为三十岁左右的用户,结果上线之后突然增加了许多不到二十岁的用户。再比如,团队此前对销量的影响因素已经有了比较一致的认知,但是获取的最新数据表明,之前的认知荒谬得可笑。
这也就是数据应用问题复杂的地方。数据应用是一个复杂的过程,而不是公式化的过程。我们不大可能使用一套固定的、预先定义好的指标来评价任何情况(如一个全新设计的运营活动)。这听上去就很不靠谱,但这样做的团队并不少见——同一套分析模板,应用到各种各样的场景中。当我们接到一项数据分析任务的时候,就会去找那些耳熟能详的分析指标(如研究页面流量的PV/UV指标、研究用户转化时的漏斗模型等),然后把数据导入计算公式,计算出结果。之后,再把这些计算结果绘制成统计图,配上文字说明。分析过程就这样简单粗暴地结束了。至于这些指标与数据分析的最终目的之间存在着怎样的关系,似乎无人深究。
那些经典的指标固然重要,但它们不应成为我们做数据分析和应用的阻碍和界限。仅经典指标提供给我们的有限信息是远远不够的,因为它们只能解决固定的、有限的、通用的几个浅层次的问题,比如浏览页面的人是多还是少,哪些内容的访问人数更多,用户的转化程度是高还是低等,但是不会“自解释”为什么会这样。因此,对于诸如“为什么”这样深层的、复杂的问题,获得几个指标之后,必定还有大量复杂的人工过程。
现在我们放松一下,从结束这一节的内容。盖住后边的内容,你能快速想出拼图游戏的“规则”是什么吗?试试看!这对梳理数据应用的思路很有帮助。
下面来看看我总结的一些规则:
第一,与空缺位置的形状相符,才能放上去。(这才是有效的解决方案啊!)
第二,必须把拼图拼在一起,并得到了完整、正确的图案,游戏才算结束。(是公司上市?还是哪个“小目标”?)
第三,相邻两片拼图的图案应该能够相互连接,并且能够与完整图案上相应位置的图案对应。(既要符合现状,也要对最终的目标有帮助,这才是好方案。)
第四,不能把任何一片拼图放在整幅图案之外。(提出的方案与问题无关且浪费资源,你要小心了!)