统计学思维:如何利用数据分析提高企业绩效
上QQ阅读APP看书,第一时间看更新

逐步回归法与对变量选择做人工确认

我们选择多元回归分析是因为它不像简单统计那样具有局限性,但需要注意的是,解释变量的数目必须少于分析对象企业的数目

我们在做经营战略分析时,将竞争对手企业罗列出来后通常会发现,被列为分析对象的企业顶多只有30多家。当然,并不是说少到30家就无法做分析了,不过从数理逻辑上说,我们没法用100个解释变量对30家企业做多元回归分析。

当解释变量的数目为29(比分析对象的数目少1)时,就像中学时解联立方程式一样,我们确实能得出毫无误差的“与数据完全一致的相关性”,但解释变量的数目只能止步于29个,不能再多了。

“有多少家分析对象企业,相应的解释变量上限就是多少。”虽然统计学当中并没有这类具体标准,但我们在制定经营战略时,分析对象一般顶多只有20~30家。这种情况下,我们最好只选择几个从统计学角度而言具有可信度的且对收益率影响较大的解释变量做多元回归分析。

那么,我们又该怎么去筛选出这些解释变量呢?这也属于统计学的工作范畴,行业术语是“变量选择”。不管备选的解释变量有多少个,我们都能通过一类机器算法筛选出那些从统计学角度而言具有可信度的变量,进而推导出多元回归的分析结果。

在SAS、R、SPSS或Stata等统计分析工具所提供的各类算法中,我推荐一种名为“逐步回归法”的算法。当然,分析工具不同或分析工具中设定的选项不同,各个版本之间会有少许差别,但逐步回归法所共通的基本理念在于:从多个解释变量中选取一个来做回归分析,从而找出影响最为显著的解释变量。

接着,再从剩余的解释变量中选取一个与最初选中的(影响最为显著的)解释变量进行组合,然后再做多元回归分析,继续找寻哪一个才是影响最为显著的解释变量。

如此逐个引入解释变量,同时按照一定的标准检查是否存在应剔除的解释变量。如果存在,则剔除。重复这一过程,直到再没有需要引入的解释变量,也没有需要剔除的解释变量时,结束搜索。

这样,当我们运用最终被选取出来的解释变量进行多元回归分析时,得出的结果才是真正基于数据推导出来的“与收益率最为相关的重要解释变量”。

虽然我觉得对一般商务人士而言“用逐步回归法做统计分析就足够了”,但近来也有人认为,斯坦福大学统计学专业的罗伯特·提布施瓦尼(Robert Tibshirani)教授在1996年提出的LASSO算法或其派生方法比逐步回归法更适合用来选择解释变量。

不过,相较于方法本身,在实际操作时我们更需要注意对解释变量选择结果进行确认,看看“有没有将那些过于理所当然的解释变量剔除出去”。

比如说,当我们根据帝国数据银行提供的数据进行汇总时,一不小心将营业利润留下来作为解释变量备选了。营业利润额增加,总资产收益率便增加,这是再自然不过了。但当我们将其选为多元回归分析的解释变量时,那也就意味着我们得出的其他解释变量与总资产收益率之间的相关性,都是基于“在营业利润额相同的情况下”这一条件。这个假设既不现实也毫无意义。我们原本想了解的是到底“哪种因素与企业收益率相关”,但现在这一分析结果显然失真了。

又或者,机器筛选出的解释变量虽不至于到“理所当然”的程度,但如果属于“就算知道了也无济于事”或“让人感觉怪怪的”,那么就要尝试将其剔除并重新选择解释变量,这一过程也至关重要。

如果无论有没有经过“在知道了也无济于事之类的解释变量固定的情况下”这一条件的调整,最终都筛选出了同一解释变量,那就说明该选择结果还是值得信赖的。不过,实际上也有可能在剔除了该“知道了也无济于事的解释变量”后,我们会发现其他新的重要解释变量。

无论算法本身多么先进,从数学或机器角度来说,这些算法基本上都在试图找出“最为匹配”的分析结果。所以,反过来说,带着“匹配是匹配,但完全没有意义”的想法,发挥人工检查的意义,重新审视筛选结果的过程也是极具价值的。