3.1 风险的分析统计
在第二章中我们已讨论了风险分析,它包括了风险识别,但比较偏重风险的定性分析。一旦风险被识别,我们就能掌握大量的信息用于统计和概率分析。本章讨论风险统计和概率分析,介绍一些与风险管理相关的统计和概率的基本概念,然后用它们来分析一些实际问题。
3.1.1 收集数据
风险统计分析的第一步是收集数据。通常数据都是日常积累而非刻意收集的,只有在特殊情况下,风险经理才会从头做起,决定收集什么样的信息。收集信息是十分重要的,假如没有对事故发生期内的雇员伤亡情况做一定的记录,就无法对其进行分析,同样收集不必要的信息就是浪费时间。
收集数据的方法很多,在已进行风险管理的情况下,信息一般是已经存在的,很少需要风险经理另行设计收集数据的方法,风险经理需要做的只是对收集的数据格式做一些调整。以索赔信息为例,风险经理要确保索赔报告中除了满足保险人所需的信息之外,也包括他本人可以用于分析的信息。
收集信息的表格设计十分重要。表格设计要注意以下几点:
(1)表格必须包括所有的指示信息。这些指示信息包括说明使用表格的原因、目的及怎样使用等。
(2)尽量避免模糊点。如果存在着模糊点,回答人可以根据自己的理解来做出回答,这样的数据往往是没有价值的。
(3)不要出现任何诱导性的问题。因为这样的答案仅仅代表设计者的意愿。
(4)表格应该尽量简单。这样既节省了填写表格耗费的时间、精力,也保证了填写的精确性。
(5)明确信息分析的方式。通常数据都会记录在计算机上,这样大大提高了分析的速度,表格设计者必须据此以适当的方式收集数据。
3.1.2 数据的表示方法
(1)频数分布法。这是最简单最普通的表示数据的方法,将数据进行简单分组,然后得到各个区间的数据数。
(2)频数分布比较法。频数分布使我们对数据一目了然,当比较其他一些数据或者比较数据内的子项目时,该方法十分有效。
(3)相对频数分布法。它是在频数分布比较法基础上用百分比来表示,更为直观,数据更便于解释。
(4)累积频数分布法。累积频数的表示方法主要是以低于或高于一定数值的累积分布来表示。
(5)直方图、饼状图、柱状图和曲线图等图形法。通过数形结合,从统计图中,能看出各组数据的特点,可进一步应用这些数据特点解决实际问题。通过整理数据,根据要求绘制统计图,可进一步分析数据、做出决策。
3.1.3 数据的计量
我们已经探讨了收集信息、表示信息的基本步骤,分析了一些实用的方法,每种方法都有其特殊的用途,使用者需根据目标确定使用什么样的方法。但表示数据时,我们并没有对所掌握的数据进行计量,而是仅仅考虑以适当的方式表示数据。现在我们进行数据的计量,以发现隐藏在数据背后的信息。
我们将做一些计算,对数据进行整体的描绘。首先,要知道整个数据范围,即数据所在的最小、最大值区间。其次,要了解数据的离散程度,紧密在某处或者分散在整个范围;整体上趋于数据范围的左端还是右端。所以我们至少要经过三次计量,才能对数据传递的信息有一个大致的了解,这三次计量分别是对数据的位置、离散性及偏态的计量。以下我们一一加以讨论。
1.位置的计量
计量位置的一般方法是平均形式表示数据。至少有三种平均形式,依次为平均数、中位数和众数。
(1)平均数。我们对算术平均数是十分熟悉的,加总所有的变量值再除以变量个数即可。
计算算术平均数很简单,但这里面临的一个问题是,我们无法取得所有变量的值,只能取得分组的频数分布。这时候通常的做法是,选取一组数的中点值来代表。但是这样会与我们用原始数据算出的结果有一定的偏差。除了算术平均数,另一种是几何平均数。几何平均数是指n个观察值连乘积的n次方根,适用于增长率这样以百分比形式表示的数据。
使用平均数对数据的位置进行计量存在的第二个问题是,一些极大值或极小值会影响平均数。所以要尤其注意一些比其他的值大得多或小得多的值,并加以说明。
(2)中位数。中位数是处于顺序数列中最中间的那个数。
在有奇数个数值的数列中,剩下50%的数比它小,50%的数比它大;在有偶数个数值的数列中,中位数为最中间的两个数的中点值。中位数不易受分布中极值的影响,因为只取中间值而不考虑任何极值的影响,这就是中位数的有效性。
使用中位数给数据定位比算术平均数更为精确,但是中位数并不适合所有的情况,如数列12,12,12,12,12,12,12,12,15,17,18,19,21,23,25。这里算术平均数为16.12,中位数13.5。这里有一半的数据是同一个数字,此时中位数对数据的描述则会出现偏差。
(3)众数。上面的问题可以使用众数解决。众数是指数列中最普通的数字,是以典型数据代替平均数的方法。当很多工厂的事故数极高或极低时,算数平均数毫无意义。在这种情况下分布称为双峰分布,将有两个众数。
2.衡量数据的离散性
确定数据所处的位置后,必须考虑该位置的离散性。最简便的计量方法是离差,即计算最大和最小的数据值之间的差额。另一种更有价值的方法是标准差,它表示数据偏离算数平均数的程度。其公式为:
其中,s为标准差,n为数据个数,x为数据值,为数据算术平均数。
如果数据是分组的频数的形式,则计算标准差的公式为:
其中,s为标准差,f为分组频数,x为相应组数据。
我们知道,当两组分布平均数相等时,离散越大的组风险越大,离散程度的大小决定了分布的风险程度。当平均数相等时,这种直接比较是可行的。当两组分布的平均数明显不同时,平均数高的组其标准差也应该大,这是由于数值大,而不是离散程度大。在平均数不同的情况下,我们可以用标准差除以平均数的百分比来比较离散程度,这称为变差系数。
3.偏态
偏态是指非对称分布的偏斜状态。当分布有偏态时,即向左偏或者向右偏时,平均数与中位数就不会相等。当平均数与中位数一致,没有偏态,称为零偏态。当平均数大于中位数时,分布聚集于低值区,分布偏向右边。
计算偏态的公式如下:
式中,S表示偏度(无量纲);i表示第i个数值;表示平均值;n是采样数量。