混合策略_囚徒的困境-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

混合策略

不幸的是，并非所有博弈都是有鞍点的。这里有难以解决的问题。麻烦在于，你可以发明一种博弈，其规则是你任意制定的。回报的任何集合都是可以想象出来的。矩形的表中，你可以很容易地填上一些数字，使得行最小值的最大值不等于列最大值的最小值，而这样就会没有鞍点。

所有博弈中最简单的“匹配硬币”就没有鞍点，冯·诺依曼和莫根施特恩用它做例子，但在普通的意义上，它很难算得上是博弈。两个游戏者同时放一枚1分硬币在桌上，正面朝上或反面朝上。当两枚硬币匹配（都是正面朝上或都是反面朝上）时，第一个游戏者赢，他可以拿回自己的硬币，还能赢了对方的硬币。如果两个硬币不匹配，则第二个游戏者赢得这两枚硬币。

这个博弈的列表如下所示：

表3-3

这两行的极小值都是-1分，因此极大极小值还是-1分。这两列的极大值都是1分，因此极小极大值也是1分。极小极大和极大极小之间相差2分。

冯·诺依曼和莫根施特恩把这类博弈比作“拔河”——拔河的双方都可以通过把绳子拉过来更多一些以阻止对方取胜，从而使得绳子围绕中点忽前忽后。在匹配硬币中，第一个游戏者可以保证其极小极大值（-1分），但在这种情况下，这个值说明不了什么，因为这个值也就是他在这个博弈中的最大损失。第二个游戏者保证不会有多于1分的损失。这两个保证之间的差值为2分，正是这个博弈中一局的赌注。

你应该选正面还是反面？显然，这完全取决于对方。如果你知道对方的行为，就知道自己该怎么做了。对于对方而言也是这样。

因此，进行这个博弈的最佳方法是随机地出正面和出反面，概率各为50%，这叫作“混合策略”。如果总是出正面，或者总是出反面，这叫作“纯策略”。在冯·诺依曼时代，混合策略已不是什么新事物了，博雷尔的论文中就考虑过这种策略，而且像匹配硬币这类博弈的游戏者早就对随机行动抱有希望。有时候，在进行另一种博弈时，匹配硬币被用作一种“随机”方法以确定谁先走，例如在棒球比赛中决定哪个队先开球。

为了从零开始形成一个新的随机策略，游戏者创造了一种自强制式的平衡。我们可以为匹配硬币画一张新表，其中包括随机策略。

表3-4

不管是谁，如果他随机地出硬币，那么赢或输1分的概率是相等的（不管对手在游戏中采用的是纯策略，还是随机地出硬币）。这样，随机的游戏者的平均回报为0，在随机策略的行和列中都为0。

现在就有鞍点了。如果第一个游戏者必须先说出他的策略（一定出正面，一定出反面，或者是随机出），那么由于他知道对手必定会利用该信息从中获利，他势必要选具有极大极小值的策略。出正面或出反面的策略都有极小值-1分，而随机策略保证平均的收益为0（不管对方怎么做），因此随机策略有极大极小值。

如果第二个游戏者必须先说出他的策略，他希望有极小极大值，为此他也将选择随机策略。也就是说，根据博弈论，右下方格是这个游戏的自然结果。两个游戏者都将随机地选择。这样，我们又一次在游戏者对立的利益之间找到了平衡。

很多5岁的孩子就知道怎么玩匹配硬币游戏，那么我们为什么还要博弈论？

答案在于：许多博弈没有那么简单，只有用博弈论才能制定出无懈可击的、正确的方法，这种方法绝不是靠常识就能形成的。随机策略中的机会不一定是50∶50，甚至必须按照回报加以调整，而如何调整则要靠博弈论来解决。

这里有一个说明上述情况的小小的、却极为绝妙的二难推理：“百万美元赌注的硬币匹配”。它同普通的硬币匹配游戏相似，不同之处是你的对手是富得流油的大财主，只要两个硬币都正面朝上，他将付给你100万美元。你的回报如下表所示（对手的回报正好相反）：

表3-5

你应该怎样玩这个游戏呢？没错，你感兴趣的是赢得他的100万美元，而这只有你出正面才有可能，所以你的第一个冲动是出正面。

不过，且慢。除非你的对手疯了才会出正面，但他不会冒损失100万美元的风险，所以他的第一个冲动是出反面。

如果双方的第一个冲动都占了上风——你出正面，你的对手出反面。这样，两枚硬币不匹配，你将输给对手1美分。嗨，这是怎么回事，这个游戏不是被认为对你有利吗？

深入分析一下，你认识到你的对手必然会出反面，这不但否决了你赢得巨额赌注（也就是他的巨额损失）的可能性，而且每次你出正面而他出反面，他都会赢你1美分。

其实双方都可以玩这个把戏。只要你知道你的对手肯定会出反面，你也可以利用这个事实，也出反面，那么你就肯定可以赢1美分。

然而你的对手可能也会预测到你的诡计，于是他也可能试着出正面——当然也可能不，因为这毕竟要冒损失100万美元的风险。不过，即使只有极小极小的机会他出正面，你也许仍然应该考虑出正面，因为放弃赢1美分而冒险赌赢100万美元总是值得的……

这里，正确的混合策略到底是什么呢？博弈论告诉我们，任何时候你都出反面是合理的；你应该出正面的概率大约只是亿分之二（确切的比率是2∶100000 001）原书此处误为2∶100000 003。——译者注你的对手也是这样。这里我们不准备深入讨论实际的数学问题，因为这对理解社会性的二难推论问题并不必要。对于推广的匹配硬币游戏——两人，每人有两个策略的零和博弈，正确的混合策略是易于计算的。像通常一样在2×2的栅格中写下回报，然后计算每行中两个回报的差，写在表的右侧：　1000000- -0.01 = 1000000.01　0.01 -0.01 = -0.02　将结果中的负值变为正值，然后交换：　1000000- -0.01 = 0.02　0.01-0.01 = 1000000.01　这说明“正面∶反面”的正常差异为“0.02∶1000000.01”，或者（通过乘以100，去掉小数点）“2∶100000 001”。另一游戏者通过计算每列中两个回报的差并交换而获得相同结果。在这个游戏中，两个游戏者的差是相同的。若博弈有两个以上策略，情况则复杂得多。

100万美元的回报当然是一笔数量巨大的横财，但这几乎是一种幻想，因为对手会否决它。正规的匹配硬币游戏是公正的博弈，其期望值为0。这个游戏的百万美元版本是投你所好的，但一局你大约只能赢1美分，而且只当两个硬币都反面朝上时才有可能。因此，百万美元回报的净效果只是将你的平均收益提高1美分！即使把游戏的奖金提高到10000亿美元甚至10100美元，你对收益的期望值仍然如此，一点儿也不会改变。

有关这个游戏另一件令人惊诧的事是：博弈论建议第二个游戏者偶尔可以玩一次冒险的策略——出正面！当然他不可以多次玩这个把戏，但完全不这么玩也很难说是理性的。那么，怎么来看待这个问题呢？可以这样想：这个游戏基本上只有一种玩法，就是两个游戏者都出反面（上表中的右下格）。但是，如果第二个游戏者事先发誓肯定出正面，①这将排除你赢得百万美元的任何可能性，你没有理由再出正面。

第二个游戏者（他几乎总是出反面）其实希望你出正面，因为这会使他赢。而如果他偶然出一次正面，将会吊起你的胃口，刺激你此后出正面。更有甚者，每当他出正面时，他一般会赢1美分，因为你平常总是出反面的。

但俗话说，事不过二。假若第二个游戏者多次出正面，那么就有许多次出现一个硬币正面朝上的情况（这时第二个游戏者赢1美分），抵消了两个游戏者同时出正面从而造成罕见的戏剧性结局的情况。因此，第二个游戏者非常难得地出正面，并不完全避免，才是最佳的混合策略。