极小极大原理和蛋糕
二人零和博弈是一场“总体战”——一个游戏者赢,另一个人必然输,他们之间没有合作的可能。冯·诺依曼为这类博弈制订了一个简单而切合实际的计划以获得明确而且合乎理性的答案,这个计划叫作极小极大原理。
让我们从博弈论的角度再一次来考察分蛋糕问题。两个孩子实际上在进行一场零和博弈——蛋糕就那么大,两个孩子怎么做都不会改变蛋糕的可用总量。一个孩子分得多一些,就意味着另一个孩子分得少一些。
第一个孩子(切蛋糕那个)可以有许多策略,严格说来是无限多的策略,因此他可以从无限多的方法中任选一种来切蛋糕。这里为了简化,我们认为他只有两个策略可供选择,这不会对讨论带来太多损失。这两个策略是:不均分和尽可能均分。
第二个孩子(挑蛋糕那个)也有两个策略:选较大的那一块或选较小的那一块(进一步考虑到实际情况,我们允许切蛋糕的动作是不完善的,即使切蛋糕的人采取均分的策略,总有一块比另一块稍大一些)。
下面这张简单的表说明了两个孩子各自选择的情况。我们只需要把一个孩子的所得填到表的方格中去,这里用的是切蛋糕那个孩子的所得。显然,挑蛋糕那个孩子得到什么也已保留在表中了。表如下所示。
表3-2
我们已经知道这个博弈的期望是什么。切蛋糕的孩子将均分蛋糕,或者说尽可能地分得均匀。挑蛋糕的孩子将选较大的那块。因此结果反映在左上那个方格中:分蛋糕的孩子得到的半块蛋糕是稍小一点儿的,因为挑蛋糕的孩子从两个几乎一般大的半块蛋糕中挑走了稍大一点儿的那一块。
为什么有这样一个结果呢?如果切蛋糕的孩子可以挑选4个可能结果中的任意一个,他会挑中大的那半块(右下方格)以结束这场博弈。然而他认识到这是不现实的。他知道根据对方的选择策略自己应该有什么样的期望,也就是最坏情况——尽可能小的一块。
切蛋糕的孩子所能决定的仅仅是该问题结果中的行。他预期分蛋糕的事将以自己获得该行中蛋糕最小量的那一格结束,因为挑蛋糕的孩子一定会使自己那一块蛋糕最小化。因此他必须这样行动,让挑蛋糕的孩子将要留给他的量小的那半块蛋糕极大化。
如果切蛋糕的孩子均分蛋糕,他知道他的结果是获得差不多的半块蛋糕。如果他切得一大一小,他知道他的结果必定是只能拿到小的那半块。因此他只能在差不多的半块和小于半块蛋糕这二者之间做出选择,也因此他只能选择尽量均分蛋糕以保证获得差不多的半块蛋糕。这个量,是行中极小值的极大值,被称为“极大极小”。
伊塔洛·卡尔维诺在《寒冬夜行人》(If on a Winter's Night a Traveler, 1979)一书中写道:“你知道,你所能期盼的最好结果就是避免最坏情况。”这个警句很好地说明了极小极大原理。策略的选取是一个自然的结果,它不仅仅是由博弈理论中的仲裁推荐的“合理”结果,而且还是一种被游戏者双方各自的利益强制形成的真正的平衡。游戏者决不会从他的最佳策略上偏离到对自己造成威胁的策略上去(因此也就偏离到有利于对手的策略上,因为这是一个零和博弈)。
极小极大原理有助于让我们理解许多更困难的二人零和博弈。我们已经说明过,几乎任何一个普通的博弈在逻辑上都等价于游戏者同时选取策略。这样,同时选取策略的博弈与分蛋糕是不同的,因为在分蛋糕这个博弈中,挑蛋糕的孩子是在切蛋糕的孩子已经行动之后才行动的。
但是请看:如果切蛋糕的孩子在拿起刀子之前,挑蛋糕的孩子必须首先宣布他的决定(要较大还是较小那块),这会发生什么情况呢?情况完全没有什么不同。挑蛋糕的孩子是有理性的,他知道切蛋糕的孩子会这样分蛋糕:使挑蛋糕的孩子拿到的那一块尽可能小。所以这次轮到挑蛋糕的孩子希望切蛋糕的孩子获得可能的最小的那块(记住,上面的表中显示的是切蛋糕的孩子拿到的那块,而挑蛋糕的孩子拿到剩下的那块)。因此,挑蛋糕的孩子寻求的是列中最大值的最小值,仍然是左上角方格,也就是他会选择较大的那块蛋糕。
在这个博弈中,左上角方格是自然结果,不管哪个孩子被要求首先宣布其策略。因此我们可以放心地说,左上角方格是两名游戏者必须同时做出决定的一种博弈的合乎逻辑的结果。
左上角方格中的值既是极大极小(切蛋糕孩子的最佳“可实现”的结果),同时也是极小极大(挑蛋糕孩子的最佳“可实现”的结果),这里是按照挑蛋糕孩子将会得到的结果来表达的。你也许会怀疑这究竟是巧合还是总会这样。这确实是巧合,虽然在一张小的表中这并不是一般的巧合。当极大极小和极小极大相同时,该结果称为“鞍点”。冯·诺依曼和莫根施特恩把它比作山脉中马鞍形通道的中点——准备通过该通道的旅行者会达到的最大高度,也是翻山越岭的山羊遇到的最小高度。
当一种博弈有鞍点时,鞍点就是它的解,是游戏者理性地玩这种博弈时的期望结果。注意,理性的解不一定意味着每个游戏者都乐于接受。切蛋糕的孩子最后得到的那块蛋糕会比挑蛋糕的孩子少那么一丁点儿,所以他不一定认为这是公平的。在这类事件中,2个游戏者也许都会失望,认为自己没有获得一块更大一些的蛋糕,没有得到他们理想的结果。是什么阻止他们“罢工”并干出些不理性的事情来呢?
答案在于孩子的贪婪和不信任。就算略小的那半块蛋糕是切蛋糕的孩子不需要挑蛋糕的孩子任何帮助就能到手的,这也是切蛋糕的孩子通过他自己的努力使挑蛋糕的孩子能留给他的最大的一块蛋糕。要获得好一点儿的结果,其中一个孩子就需要求助于他的对手,但是对手没有理由去帮助他——他自己也只有半块蛋糕。一个零和博弈的鞍点解是由博弈本身得出的,这有点儿像中国式手铐:你为了稍微舒服一点儿而挣扎,但手铐却越勒越紧,反而让你更加难受。