CFA三级中文精讲②
上QQ阅读APP看书,第一时间看更新

1.2 预测过程中遇到的9类问题

考生需要知道,一个高质量的预测一定是一致性的(consistent)、无偏的(unbiased)、客观的(objective)、有证据支持的(well supported),并且是预测错误最小的。

何老师说

上述“一致性”存在两种理解角度:第一种是从统计学概念出发,随着样本数据的增加,预测的准确性也随之上升;第二种是预测结果内部不应该存在互相矛盾的现象。如图5-1所示,它展现了变量1、2、3之间的相关系数。通过表格我们不难发现,变量1与变量2之间的相关系数为-1,表示两者呈现完全负相关的关系;变量1与变量3之间的相关系数也为-1,两者也呈现完全负相关的关系。由此我们可以推导出变量2和变量3之间的相关系数应该为1,呈现完全正相关的关系。但是实际情况却如图5-1所示,变量2和变量3之间的相关系数为-1,呈现完全负相关的关系。这一结果与我们先前得到的推导结论互相矛盾,因此就违背了一致性的原则。

图5-1 一致性原则图示

注:该图引自CFA协会原版书三级第一本reading 16。

无偏性是指只要我们多做几次预测,那么所有样本预测结果的均值期望应该是等于真实均值的,但是实际市场上却充斥着大量的有偏估计。有研究结果表明,上市公司倾向于报告一个微小的收益,这体现在市场上就是报告微小收益公司的个数要显著大于报告微小损失公司的个数(正常情况下,市场上所有公司的平均利润应该为零)。这样的报告表明,很多公司管理层对自己的业绩估计是一个有偏的估计(虚报了公司的收益)。资本市场预期的结果并不都是有效的,预测过程中会出现各类问题。接下来,我们就重点说明一下预测过程中会经常遇到的9类问题。

问题1:经济数据的限制

分析师做预测时需要使用各类经济数据,他们在使用经济数据时可能面临以下4类限制。

时滞(time lag):经济数据的公布往往存在时滞。例如,通常在次年2、3月,政府才会公布该国前一年的CPI数据。那么分析师想在当年1月就获取该国前一年的CPI数据以预测当年该国的CPI走势是非常困难的。

修订(revision):关于GDP等一些经济数据,政府会在年初公布一个初始数据,随后会依据经济形势的变化对其进行修正调整后再公布一个修订数据。如果预测模型中同时包括了初始数据与修订数据,就会影响预测结果的准确性。

定义及计算方法发生的改变(change in definition or calculation method)。例如CPI数据,它衡量的是居民一篮子消费品的价格变化情况。通常情况下,这一篮子消费品的构成情况需要每3年调整一次。那么调整后与调整前的CPI数据就不再具有可比性。同理,基于中国的消费篮子计算出来的CPI指数与基于美国消费篮子计算出来CPI的指数也不具有可比性。因为中国消费篮子的构成与美国大相径庭。相比美国的消费篮子,中国的消费篮子中不包含房价(只包含装修费、维护费、租金等费用),并且食品所占权重非常高。

基期调整(re-based):在计算CPI指数时,我们首先需要确定一个基期的物价水平。如果我们将基期的年份由1980年调整为1990年,那么依据不同年份基期计算所得的CPI结果也是不一样的。

问题2:数据计算的错误与偏差

我们将这一问题分为“错误”(error)和“偏差”(bias)两类。相较于“偏差”,“错误”被人们及时发现后,是可以避免的。

誊写错误(transcription errors):这类错误经常发生在数据的收集、处理过程中。例如,在处理数据时,将数字“5.20”看错为“5.02”就属于这类错误,如果数据誊写错误总是偏向一个方向(涉嫌故意篡改数据),这就是非常严重的问题。

存活偏差(survivorship bias)★★:如果数据只是反映了一段时期内存活下来的个体情况,就发生了存活偏差。这类偏差在对冲基金的业绩统计中非常常见。市场上对冲基金的分化情况严重,存活下来的对冲基金通常都有着较高的收益,而那些被市场淘汰的对冲基金则是血本无归。只统计存活下来对冲基金的业绩,就会高估对冲基金投资品种的整体业绩表现。

后果:存活偏差下统计所得的数据由于只考虑到了存活个体的情况,因此将高估投资品种未来收益率的表现,并且低估其风险,从而使得预测结果失真。

数据平滑(appraisal[smoothed]data)★★:数据平滑现象经常发生在那些流动性很差的市场上,被平滑的数据一般是该类市场上的成交价格。假设在当前房地产市场上,分析师获取了某套房产月初以及月末的成交价,那么他想要评估该房产位于月中的价值,就只能对相关数据做平滑处理。平滑后数据的波动性,往往小于市场上真实数据的波动性。

后果:如果分析师使用了关于资产的平滑数据,那么他在计算该类资产与其他类资产相关性时,就会低估该相关性的真实数值。此外,数据平滑后计算所得的标准差也是被低估的。

解决方法:分析师可以有意识地对数据的波动性进行放大,如此一来,数据的离散波动幅度也将随之增加,但是数据的均值并不会因此发生改变。

何老师说

分享一个存活偏差的案例:一位分析师正在研究处于经济转型期的A国经济,A国目前经济还处于发展中国家的水平,正在向发达国家的行列迈进。该分析师找到了一些发达国家过去50年的经济数据,想借此计算这些发达国家在过去由发展中国家到成为发达国家的这一发展过程中的GDP增长率,并以此为依据来预测未来A国的经济增长情况。在上述研究方法中,该分析师由于只寻找了发达国家的数据,而忽视了那些由发展国家起步却发展失败的国家的相关数据,因此分析师所得数据中就有存活偏差的问题。

数据平滑现象可以用“黑洞效应”加以解释。如图5-2所示,假设一只蝙蝠从方框左侧A点处飞入,再由B点处飞出。方框代表了一个山洞,我们无从知晓蝙蝠在山洞里的飞行路径。它也许是沿着绿色实线的轨迹上蹿下跳地乱飞,但是结合A点与B点,人们通常会推测出诸如图中红色虚线作为蝙蝠的飞行路径。显然,相较于绿色实线,红色虚线的波动程度要小得多。上述现象非常类似于我们讲述的数据平滑。

图5-2 黑洞效应

大家在学习这9大类问题时,每一大类问题的大标题是不需要记住的(例如这里的“数据计算的错误与偏差”),但是对于每一类大标题下讲述的小标题需要大家牢记掌握(例如此处的“存活偏差”和“数据平滑”)。这是因为考试通常会描述一段场景,然后让考生根据场景选择选项,选项就是依据每一类问题下的具体小标题来设置的。例如会让考生识别一个场景究竟是存在“存活偏差”“数据平滑”还是“数据挖掘”问题。除了正确掌握这些偏差的定义,我们还需要知晓它们分别对应的后果,这些后果也是考试的重点。大家需要牢记上述复习要点,以便在复习时做到有的放矢。

问题3:历史估计的局限性

分析师对于诸如股票一类波动性很大的资产历史数据的运用要做到随时更新,与时俱进,尤其是在考虑非平稳性问题的情况下。

非平稳性(non-stationarity):非平稳性的产生是由于政治制度或是科技环境发生了重大的改变。分析师在使用较长时期的时间序列数据(long data series)时,就容易发生非平稳性的问题。例如,分析师获得了我国1990~2010年度进出口贸易的历史数据,并且想要预测未来的贸易状况。注意到我国在2001年2月正式加入了WTO(世界贸易组织),因此2001年12月是一个分界点,贸易状况于该时点发生了重大的政策变化。相比较加入WTO之前,我国在加入WTO后放松了进出口方面的诸多限制,并且我国的商品也能够更容易地被销售至世界上的其他国家。所以2001年12月之前的数据与之后的数据的特征是不同的,这就导致了数据非平稳的问题。使用2001年12月之前的数据来预测当前市场环境下未来的贸易情况是没有意义的。

通常,分析师更愿意使用包含更多样本的长时期的样本数据做模型分析,他们认为期限越长的数据,就越能增加模型预测的准确性。但是长期的时间序列数据也会诱发如下问题:

·长期数据增加了数据包含多个政策时期(cover multiple regimes)的风险。

·大样本的数据长度往往是不可得的。

·我们可以采用“高频数据”法同时解决上述两个问题。例如,使用周数据或者天数据。但是高频数据本身也会造成变量间的“不同步性”(asynchronism)的问题,从而低估了数据间的相关性。

何老师说

使用较长期限的数据所产生的问题,我们可以通过以下案例加以说明:假设我们获取了1995~2005年某只股票与A股大盘的相关数据,并借此想研究两者之间存在的关系。我们不能直接使用全部20年的数据,因为这一数据是非平稳的。2006年中国实施了股权分置改革,很多非流通股进入市场,变成了流通股。如果不考虑这一重大政策的影响,直接使用所有数据,那么数据就会覆盖多个政策时期。但是如果我们只使用2006~2015年股权分置改革后的数据,数据的样本量又过小。所以我们可以对数据进行处理,将2006~2015年度的或者月度的数据转化为周的或者天的数据,即高频数据。如此一来,数据的样本量就被人为地放大了。但是使用高频数据也会带来一个问题,那就是在年度或者是月度数据下,这只股票与大盘也许呈现出了比较强的相关关系,可是在高频数据下,这种较强的相关关系就被人为地弱化了。所以我们在使用高频数据时,一定要对高频的“频率”做到适度把握。

问题4:事后风险作为事前风险的有偏估计★★

人们对于事前风险(ante risk)会表现出更多的恐慌与不安。例如,人们在做外汇投资前总是担心汇率风险的发生,但是当投资期结束后,就会发表“我早知道本币会贬值”一类的言论。因此,当我们计算出一个特定时期的事后风险,并以此为依据再去评估还未发生事件的事前风险时,就会低估了事前风险的大小,从而也间接高估了资产收益率的大小。

因此,当分析师在使用事后风险作为评估事前风险的替代时,应当在原有事前风险的基础上增加一定的风险溢价(risk premium),这样度量出的风险才是真实合理的。

问题5:分析方法中的偏差

分析师研究问题的方法也会存在一定偏差,主要包括数据挖掘偏差和时间期限偏差。

数据挖掘偏差(data-mining bias)★★:分析师可以反复多次地演练或是研究一个数据集,直至发现其中存在的一些统计学上显著的模式、规律。例如,一位分析师发现某些年份大盘的回报收益率与当地降雨量之间呈现出明显的正相关关系:在降雨量充沛的年份,大盘的收益率表现较好。这一现象就是典型的数据挖掘偏差。我们都知道,大盘收益与降雨量之间不存在任何关系,分析师得到两者在统计学上的关系是没有经济理论作为支持的,这样的统计学上的关系对于预测是没有意义的(no story,no future)。所以,没有经济学意义作为支撑的变量之间的关系往往暗示着数据挖掘偏差的存在,我们对此要格外留心、注意。

时间期限偏差(time-period bias)★★:模型研究结果往往对于一个特定的时期有效,但对于其他时间段就并不适用。例如在一定的历史时期,我国创业板表现高于大盘,但在另一个时间段,这个结论便不再适用。这就是一个典型的时间期限偏差案例。

克服方法:为了在研究问题时能够尽量避免发生上述两类偏差,分析师应该检验不同变量关系背后是否存在合理的经济学解释。分析师可以将一个完整的数据分为两部分,其中一部分用于模型预测,而另一部分(样本外数据:out-of-sample data)用于检验模型的准确性。例如,分析师获取了1991~2010年两组变量的数据后便可以将1991~2000年这一时期的数据用于建模预测,并用2001~2010年这一时期的数据去验证这一模型预测的准确性。

何老师说

我们再举一个关于时间偏差的案例。通常情况下,美国国债与公司债之间会表现出正相关的关系,因为美国国债收益率可以看作是其公司债收益率的一个基准利率,国债收益率上升,公司债收益率也随之上升。但在1998年,美国国债与公司债之间的关系却出现了戏剧性的反转。这是因为1997年的东南亚金融危机波及俄罗斯的经济,俄罗斯当局冻结了所有外籍人士的资产,并且宣布本国的所有对外债务全部违约,不予偿还。于是,全球债券市场出现了空前的恐慌,债券投资者有着强烈的避险情绪,所以当时的投资者纷纷去购买最为安全的投资品种——美国国债。与此同时,投资者卖出了安全性较差的公司债。于是,该年美国国债与公司债之间就表现出了负相关的关系。

问题6:对于条件信息的遗漏

分析师在做预测时可能会忽视相关条件信息。历史数据所反映的资产表现可能同时包含了多个经济周期条件;但分析师在做出相关预测时,必须关注当前经济的实际情况。

例如,假设分析师通过历史数据预估出一类资产承担的系统性风险β值为3.6。形成这些原始数据的时期可以被分为经济扩张期和经济紧缩期。其中,央行紧缩银根时的β值为2.6,而央行超发货币时的β值为5.5。如果考虑到接下来央行会超发货币,分析师就应当选用5.5的β值完成相关预测。

问题7:对于“相关性”的误读

即便分析师发现了变量之间的相关性(correlation),也会对其产生错误解读的可能。

当变量A与变量B之间呈现出显著的相关性时,那么至少存在3种可能可以解读这一现象:A可以预测B;B可以预测A;存在另一个变量C可以预测A、B。如果分析师对于以上3种结果没有展开审慎仔细的研究,变量之间的相关关系就不可以用于模型的预测中。

此外,相关性反映的是变量之间的线性关系。如果变量A与B之间的相关关系为零,那么我们便可以认定A与B之间是没有线性关系的,但是我们不能就此认为A与B之间完全没有关系。因为A与B之间还可能存有非线性关系,例如A=B2。

何老师说

变量之间存在显著的相关关系并不意味着变量之间就一定存在因果关系。例如,美国医学界调查研究发现,当地一个州的空气质量非常好,但同时这个州患有肺部疾病的病人数量也非常多。由此可见,空气质量与肺部疾病病人数量这两个变量之间存在较强的相关性,但是我们却不能武断地得出“因为该州空气质量好,所以肺部疾病发病病人数量多”的荒谬结论。实际上,正是由于该州空气质量非常好,全美患有肺部疾病的病人才会迁徙到这个州生活,以方便他们养病。

此外,两个变量之间表现出的较强相关性,也可能是第三个变量作用影响的结果。例如,研究发现人们的身高与词汇量之间存在较强的相关关系,但是我们不能对其解释为因为身高长高的缘故,人们的词汇量便不断增加。正确的解释是:身高与词汇量都受到年龄这个变量的影响。一个人随着年龄的增长,他的身高在长高,同时词汇量也在扩增。

问题8:心理陷阱

分析师在做决定时还会受到各类心理陷阱(psychological traps)的影响。这些心理陷阱的大部分内容与我们此前学习的行为金融学的内容相一致,大家稍作了解即可。

锚定陷阱(the anchoring trap):人们倾向于给予最初获得信息一个非常高的认可权重,这些信息包括最初的印象、评估、数据、想法以及评判。

保持现状陷阱(the status quo trap):人们倾向于保持现有的预测观点,不愿对其做出变化调整。例如,现阶段市场收益率以两位数的趋势上涨,人们就会在下一阶段对收益率做出同样的预测。特别是处理一些复杂的工作,分析师们可能就不愿意做出理性、审慎的分析,从而落入保持现状陷阱中。

确认证据陷阱(the confirming evidence trap):人们给予那些支持他们观点的证据以更高的认可,而刻意忽视那些与其观点相悖的证据。在确认证据陷阱中,分析师通常刻意寻找出一些支持他们观点的“证据”。通过以下方法我们可以有效避免这一陷阱:

·公平地看待、检测所有的证据。

·募集独立客观(independent-minded)的人群,让其对分析师持有的观点展开反驳、辩论。

·诚实地对待动机(be honest to your motives)。

过度自信陷阱(the overconfidence trap):人们会高估自己预测的准确性,这会导致分析师在做出预测时确认了一个过窄的概率区间或是过于狭小的假设情景。分析师可以通过在做预测时人为地扩张预测目标的概率区间范围,从而减少此类陷阱对于预测结果的影响。

谨慎陷阱(the prudence trap):该陷阱类似于我们在行为金融学中论述的“羊群效应”。它是指人们更倾向于做出一个温和的预测,以使得他们的预测看上去不是那么的激进。该陷阱下,分析师在预测时会表现得特别小心谨慎。分析师可以增加预测概率的区间范围来避免此类陷阱的发生。此外,我们应当仔细检验那些既是最敏感的也是最容易影响预测结果的估计。

回忆陷阱(the recallability trap):这类陷阱类似于我们在行为金融学中论述的“易得性”偏差。它是指人们更容易被那些令其印象深刻的事物所影响。所以分析师的预测结果很容易受到过去灾难性或者戏剧性事件的影响。为了最小化回忆陷阱的影响,分析师在做预测时应当基于客观的数据结论,而非通过他们的个人感情或是模糊的回忆得到预测结论。

问题9:模型及输入数据的不确定性

模型的不确定性(model uncertainty):具体是指选择的模型是否正确。例如,分析师在预测一国未来GDP,会拿不准应不应该使用时间序列模型(考虑到数据非平稳性问题),究竟哪个模型得到的预测结果才是最精确的?

输入数据的不确定性(input uncertainty):分析师往往不能确定模型输入变量的准确性。例如在上述情形下,即便分析师知道了使用时间序列模型是最准确的,恐怕分析师也是难以确定诸如劳动力、资本投入、技术进步率等重要的输入变量。

如果分析师使用了不正确的模型或是输入数据,他将很难确认市场异常现象,因为一些所谓的市场异常现象只不过是分析师用错了预测模型的结果罢了。与此同时,模型以及输入数据的不确定性使得分析师很难做出准确的市场预测结果。