囚徒的困境
上QQ阅读APP看书,第一时间看更新

混合策略

不幸的是,并非所有博弈都是有鞍点的。这里有难以解决的问题。麻烦在于,你可以发明一种博弈,其规则是你任意制定的。回报的任何集合都是可以想象出来的。矩形的表中,你可以很容易地填上一些数字,使得行最小值的最大值不等于列最大值的最小值,而这样就会没有鞍点。

所有博弈中最简单的“匹配硬币”就没有鞍点,冯·诺依曼和莫根施特恩用它做例子,但在普通的意义上,它很难算得上是博弈。两个游戏者同时放一枚1分硬币在桌上,正面朝上或反面朝上。当两枚硬币匹配(都是正面朝上或都是反面朝上)时,第一个游戏者赢,他可以拿回自己的硬币,还能赢了对方的硬币。如果两个硬币不匹配,则第二个游戏者赢得这两枚硬币。

这个博弈的列表如下所示:

表3-3

这两行的极小值都是-1分,因此极大极小值还是-1分。这两列的极大值都是1分,因此极小极大值也是1分。极小极大和极大极小之间相差2分。

冯·诺依曼和莫根施特恩把这类博弈比作“拔河”——拔河的双方都可以通过把绳子拉过来更多一些以阻止对方取胜,从而使得绳子围绕中点忽前忽后。在匹配硬币中,第一个游戏者可以保证其极小极大值(-1分),但在这种情况下,这个值说明不了什么,因为这个值也就是他在这个博弈中的最大损失。第二个游戏者保证不会有多于1分的损失。这两个保证之间的差值为2分,正是这个博弈中一局的赌注。

你应该选正面还是反面?显然,这完全取决于对方。如果你知道对方的行为,就知道自己该怎么做了。对于对方而言也是这样。

因此,进行这个博弈的最佳方法是随机地出正面和出反面,概率各为50%,这叫作“混合策略”。如果总是出正面,或者总是出反面,这叫作“纯策略”。在冯·诺依曼时代,混合策略已不是什么新事物了,博雷尔的论文中就考虑过这种策略,而且像匹配硬币这类博弈的游戏者早就对随机行动抱有希望。有时候,在进行另一种博弈时,匹配硬币被用作一种“随机”方法以确定谁先走,例如在棒球比赛中决定哪个队先开球。

为了从零开始形成一个新的随机策略,游戏者创造了一种自强制式的平衡。我们可以为匹配硬币画一张新表,其中包括随机策略。

表3-4

不管是谁,如果他随机地出硬币,那么赢或输1分的概率是相等的(不管对手在游戏中采用的是纯策略,还是随机地出硬币)。这样,随机的游戏者的平均回报为0,在随机策略的行和列中都为0。

现在就有鞍点了。如果第一个游戏者必须先说出他的策略(一定出正面,一定出反面,或者是随机出),那么由于他知道对手必定会利用该信息从中获利,他势必要选具有极大极小值的策略。出正面或出反面的策略都有极小值-1分,而随机策略保证平均的收益为0(不管对方怎么做),因此随机策略有极大极小值。

如果第二个游戏者必须先说出他的策略,他希望有极小极大值,为此他也将选择随机策略。也就是说,根据博弈论,右下方格是这个游戏的自然结果。两个游戏者都将随机地选择。这样,我们又一次在游戏者对立的利益之间找到了平衡。

很多5岁的孩子就知道怎么玩匹配硬币游戏,那么我们为什么还要博弈论?

答案在于:许多博弈没有那么简单,只有用博弈论才能制定出无懈可击的、正确的方法,这种方法绝不是靠常识就能形成的。随机策略中的机会不一定是50∶50,甚至必须按照回报加以调整,而如何调整则要靠博弈论来解决。

这里有一个说明上述情况的小小的、却极为绝妙的二难推理:“百万美元赌注的硬币匹配”。它同普通的硬币匹配游戏相似,不同之处是你的对手是富得流油的大财主,只要两个硬币都正面朝上,他将付给你100万美元。你的回报如下表所示(对手的回报正好相反):

表3-5

你应该怎样玩这个游戏呢?没错,你感兴趣的是赢得他的100万美元,而这只有你出正面才有可能,所以你的第一个冲动是出正面。

不过,且慢。除非你的对手疯了才会出正面,但他不会冒损失100万美元的风险,所以他的第一个冲动是出反面。

如果双方的第一个冲动都占了上风——你出正面,你的对手出反面。这样,两枚硬币不匹配,你将输给对手1美分。嗨,这是怎么回事,这个游戏不是被认为对你有利吗?

深入分析一下,你认识到你的对手必然会出反面,这不但否决了你赢得巨额赌注(也就是他的巨额损失)的可能性,而且每次你出正面而他出反面,他都会赢你1美分。

其实双方都可以玩这个把戏。只要你知道你的对手肯定会出反面,你也可以利用这个事实,也出反面,那么你就肯定可以赢1美分。

然而你的对手可能也会预测到你的诡计,于是他也可能试着出正面——当然也可能不,因为这毕竟要冒损失100万美元的风险。不过,即使只有极小极小的机会他出正面,你也许仍然应该考虑出正面,因为放弃赢1美分而冒险赌赢100万美元总是值得的……

这里,正确的混合策略到底是什么呢?博弈论告诉我们,任何时候你都出反面是合理的;你应该出正面的概率大约只是亿分之二(确切的比率是2∶100000 001)原书此处误为2∶100000 003。——译者注你的对手也是这样。这里我们不准备深入讨论实际的数学问题,因为这对理解社会性的二难推论问题并不必要。对于推广的匹配硬币游戏——两人,每人有两个策略的零和博弈,正确的混合策略是易于计算的。像通常一样在2×2的栅格中写下回报,然后计算每行中两个回报的差,写在表的右侧: 1000000- -0.01 = 1000000.01 0.01 -0.01 = -0.02 将结果中的负值变为正值,然后交换: 1000000- -0.01 = 0.02 0.01-0.01 = 1000000.01 这说明“正面∶反面”的正常差异为“0.02∶1000000.01”,或者(通过乘以100,去掉小数点)“2∶100000 001”。另一游戏者通过计算每列中两个回报的差并交换而获得相同结果。在这个游戏中,两个游戏者的差是相同的。若博弈有两个以上策略,情况则复杂得多。

100万美元的回报当然是一笔数量巨大的横财,但这几乎是一种幻想,因为对手会否决它。正规的匹配硬币游戏是公正的博弈,其期望值为0。这个游戏的百万美元版本是投你所好的,但一局你大约只能赢1美分,而且只当两个硬币都反面朝上时才有可能。因此,百万美元回报的净效果只是将你的平均收益提高1美分!即使把游戏的奖金提高到10000亿美元甚至10100美元,你对收益的期望值仍然如此,一点儿也不会改变。

有关这个游戏另一件令人惊诧的事是:博弈论建议第二个游戏者偶尔可以玩一次冒险的策略——出正面!当然他不可以多次玩这个把戏,但完全不这么玩也很难说是理性的。那么,怎么来看待这个问题呢?可以这样想:这个游戏基本上只有一种玩法,就是两个游戏者都出反面(上表中的右下格)。但是,如果第二个游戏者事先发誓肯定出正面,①这将排除你赢得百万美元的任何可能性,你没有理由再出正面。

第二个游戏者(他几乎总是出反面)其实希望你出正面,因为这会使他赢。而如果他偶然出一次正面,将会吊起你的胃口,刺激你此后出正面。更有甚者,每当他出正面时,他一般会赢1美分,因为你平常总是出反面的。

但俗话说,事不过二。假若第二个游戏者多次出正面,那么就有许多次出现一个硬币正面朝上的情况(这时第二个游戏者赢1美分),抵消了两个游戏者同时出正面从而造成罕见的戏剧性结局的情况。因此,第二个游戏者非常难得地出正面,并不完全避免,才是最佳的混合策略。