世界是随机的:大数据时代的概率统计学
上QQ阅读APP看书,第一时间看更新

2.3 大数定理:庄家的信条

全世界有这样四个地方,不宜久留,因为你一旦到了那里,就会急不可待地把自己手中的钱拱手送人,它们就是世界四大赌城——亚洲澳门、欧洲摩纳哥以及美国大西洋城和拉斯维加斯。

提起赌场,我们自然会想到很多荧幕上的经典桥段,“赌神”总是能够在最危急的时刻祭出唯一一张制胜牌,不仅让恶人们输得体无完肤,还会抱得美人归。可是,现实中的赌场里,根本不存在什么“赌神”,每个人都只是一个玩家。如果你是一个赌场新手,你的运气总是会出奇的棒,你下注,赢钱,再下注,又赢了钱,你扫视周围的玩家,他们摇头、瘪嘴、抱怨,只有你在暗自叫好:哈哈,我赢了他们的钱!你开始产生“赌神”附体的幻觉,你继续下注,一盘又一盘,最后,所有人的钱都输光了——自然也包括你。

你问:钱都去哪儿了?

我答:钱被“庄家”赢走了。

你问:谁是庄家?怎么赢的?

我答:庄家就是赌场,是那个为你准备扑克牌和香槟的人,他虽然没出现在赌桌前,却悄无声息的赚到了钱,他的信条总是会护佑他,让他赚到钱。

你问:他的信条是什么?

我答:全世界庄家的共同信条正是概率论中最经典的理论——大数定理。

大数定理

在抛硬币的例子里,有一个重要的前提条件——硬币的正面与反面出现的概率各为50%。你觉得这看起来一定是对的吗?科学不相信感觉,科学相信实验。

下面,请准备好一枚一角的硬币(因为一角的更轻),咱们一起来做抛硬币的实验。实验过程是:高高抛起硬币并接住,每抛一次,都把结果记录下来,正面的次数X和反面的次数Y分别记录。

抛到10次,结果是,正面3次,反面7次。

抛到100次时,结果是,正面43次,反面57次。

抛到200次时,结果是,正面97次,反面103次。

抛到1000次时,结果是,正面513次,反面487次。

这个实验可以永远进行下去,实验的目的不是找到某一次抛掷,使得XY刚好相等,实验的目的是观察XY的变化趋势。因此,实验暂时只进行到1000次。图2-2是根据抛掷过程绘制出的曲线,曲线代表的是正面所占的比例,即X/(X+Y)随抛掷次数的变化。

图2-2 正面所占的比例随抛掷次数的变化

图中曲线呈现的特征是,当抛掷次数很少时,正面所占比例的变化幅度很大,并且与0.5的差值比较大,随着抛掷次数越来越多,正面所占的比例的变化幅度越来越小,而且一直围绕在0.5的周围。根据这条曲线,我们甚至可以预期,1000次之后的曲线还会在0.5周围徘徊,感兴趣的读者可以把实验继续做下去。

大数定理,指的是随机事件发生的频率会随着随机试验次数的不断增加趋向于它的概率,简单来说就是,试验次数越多,频率离概率越近,而且越稳定。在上面的实验中,随机事件是“抛硬币出现正面”,频率是“正面出现所占的比例X/(X+Y)”,随着抛掷次数的增加,这个频率越发趋近概率值0.5,大数定理像一只“看不见的手”,掌控着试验过程。

空手套利的庄家

我们回到赌场,坐回到赌桌前,看一看大数定理是怎么暗中帮助庄家赚到钱的。

我们要玩的是赌场里很流行的一个游戏——大转盘。游戏的道具是如图2-3所示的大转盘,转盘上有38个格子,格子里填写了1~36的数字和两个特殊数字0、00,玩家的下注方式有很多种,比如下注奇数,下注黑色格子的数字,或者下注某一个数字。这里需要特别说明的是,0和00这两个数字不包含在任何赌注中,这两个数字是留给庄家的,也就是说,当转盘的指针最终指向0或00时,庄家赢得所有的筹码。

图2-3 大转盘示意图

我们挑选赢的概率最大和最小的两种赌注。

赢的概率最小的赌注是下注某一个数字,当玩家下注某一个数字时,他赢的概率是1/38,而此时庄家赢的概率是2/38,很显然,玩家会输给庄家!

赢得概率最大的赌注是下注黑色(或红色)数字,当玩家下注黑色(或红色)数字时,他赢的概率是18/38,这时,庄家赢的概率仍然是2/38,很显然,玩家会战胜庄家!

很显然,上面的分析是错的!

因为玩家和庄家要赢的是筹码,可不是概率!概率只是我们分析赌局的工具,玩家们真正关注的不是概率,而是所赢筹码的期望。为了计算所赢筹码的期望,我们首先要了解赌场里一个重要的常识——赔率。

赔率是赌场为每一个赌注设置的“赔钱比例”,比如,在2015—2016赛季英超联赛开始前,博彩公司为莱斯特城队开出的夺冠赔率是1∶5000,这个比例的含义是,玩家用1英镑下注莱斯特城队夺冠,如果莱斯特城队最终夺冠,博彩公司会付给玩家5000英镑(含玩家下注的1英镑)。同时,阿森纳的夺冠赔率是1∶3.5,即,下注阿森纳夺冠1英镑的玩家,即使赢了也只能得到3.5英镑。从这样的赔率可以看出,在英超联赛开始之前,博彩公司看好阿森纳夺冠,看衰莱斯特城队夺冠,这就是赔率的含义。

表2-11给出了大转盘中各类赌注的赔率,我们利用这些赔率来计算玩家和庄家所赢筹码的期望。

表2-11 美式大转盘赔率

假设玩家拿一个筹码下注某一个数字,他赢的概率是1/38,赢了可以得到35个筹码,输的概率是37/38,输了会输掉这一个筹码,所以玩家所赢筹码的期望是:

E(玩家下注某个数字时,玩家所赢筹码)=1/38×35+37/38×(-1)

=-1/19

=-0.0526

与玩家相对的,庄家所赢筹码的期望是:

E(玩家下注某个数字时,庄家所赢筹码)=1/38×(-35)+37/38×(+1)

=1/19

=0.0526

用同样的方法,可以计算出玩家下注黑色数字时,玩家和庄家所赢筹码的期望:

E(玩家下注黑色数字时,玩家所赢筹码)=18/38×(+1)+20/38×(-1)

=-1/19

=-0.0526

E(玩家下注黑色数字时,庄家所赢筹码)=18/38×(-1)+20/38×(+1)

=1/19=0.0526

事实上,不论何种赌注,玩家所赢筹码的期望都是-0.0526,庄家所赢筹码的期望都是0.0526,读者们可以选择其他类型的赌注自行验证。

至此,我们终于看清了大转盘的本来面目,它是一个典型的“零和博弈”,庄家赢的筹码等于玩家输掉的筹码,平均意义上看,玩家每下注1个筹码,就会输掉0.0526个筹码,同时庄家会赢得0.0526个筹码。0.0526看起来很微小,这正是庄家想要的效果,玩家就像温水中的青蛙,沉浸在赌局中,却不知自己的钱正在像沙漏中的细沙一样,缓缓地流进了庄家的钱袋。

在这个赌局中,庄家要做到稳赚不赔,就要满足大数定理实现的条件:实验次数足够多。因此,庄家会想方设法地吸引玩家不停地玩下去,玩家越是沉迷于其中,庄家赚到的筹码也越多,这就是庄家空手套利的秘密。

大转盘示意图如图2-3所示。

大数定理的误解

大数定理是概率论中最重要的定理,同时也是最容易被误解的定理。

在抛硬币试验中,我们发现,正面出现的频率随着抛掷次数的增加越来越接近0.5并且越来越稳定,这是大数定理作用于其中的结果,那么,这是否也说明,随着抛掷次数的增加,正面出现的次数和反面出现的次数也越来越接近呢?

在回答之前,我们需要分辨两个数学参量——相对频率和绝对频率。我们用X表示正面出现的次数,Y表示反面出现的次数,N表示抛掷次数。正面出现的相对频率是指X/(X+Y),正面出现的绝对频率是X本身,正面与反面出现次数的绝对频数差是X-Y。我们已知,当N越来越大时,X/(X+Y)会趋近于0.5时,此时X-Y是否也趋于0呢?我们通过实验来验证。

图2-4是抛掷硬币1000次得到的两条曲线图,左图为相对频率X/(X+Y)与抛掷次数N的关系曲线,右图为绝对频数差X-Y与抛掷次数N的关系曲线。右图中,随着N的增大,X-Y并没有越来越趋近于0,仍然变化不定。通过这个反例,我们可以否定“正面出现次数与反面出现次数越来越接近”的说法。更加反直觉的结论是,XY相等的概率会随着N的增加越来越小!这个结论会在“二项分布”一节中做出解释。

图2-4 抛掷硬币1000次的相对频数和绝对频数差

在很多赌博游戏中,玩家会对大数定理保有另一个误解:如果反复进行的试验偏向某些结果,那么后边的试验结果很可能会偏向其他结果。举个例子,如果抛硬币10次,正面出现了7次,反面出现了3次,下一次抛掷出现反面的概率会更大吗?我们已经学过独立事件,所以我们要相信,概率依然是50%。可是,这似乎和大数定理矛盾,我们要弥补正面与反面的差值才能让正面出现的次数趋于0.5,难道不是吗?

还真不是!事实上,要让概率趋近于0.5,我们根本不需要弥补此前的不均衡。举一个极端的例子,假如接下来,每抛10次,都会出现5次正面、5次反面,那么,抛掷20次时,正面出现的相对频率会从0.7下降到0.6,再抛10次会下降到0.57,再抛10次会下降到0.55,以此类推,越来越趋近于0.5。也就是说,只要硬币一直随机出现正反两面,大数定理依然成立,根本不需要刻意弥补此前的空缺!从另一个角度来看,随着抛掷次数的逐渐增加,前10次的抛掷结果对相对频数的贡献越来越小。因此,我们并不需要弥补这个小小的缺口。

总之,大数定理只是在描述随机现象的规律,它只会告诉你长期的、平均的情况,它无法预测未来。