第三章一场游戏一场梦——博弈中的经济学

两个嫌疑人为什么都自愿坐牢？

李德裕是晚唐时期著名的政治家，唐敬宗时，李德裕任浙西观察使。在浙西期间，曾经处理了一桩棘手的案子。

当地甘露寺的主事僧状告前主事私吞寺里的钱。这位主事不仅拿出了交割文书为凭，还有一帮僧人为其作证。前主事僧大呼冤枉，却又拿不出被冤枉的证据。案子到了李德裕之手，李德裕便觉得可疑。

有人私下告诉李德裕说，那些交割文书是假的，其实并没有什么金子被私吞了，只是众僧不满前主事僧，故而串通一气诬陷他罢了，只是这个案子被他们搞得人证俱全，要想为前主事僧申冤很困难。

李德裕把作证的僧人全部叫来，问他们是不是都看见交给前主事僧的金子了，众僧回答说都看见了。李德裕便将他们一个个分开，然后每人交给一些软黄泥，让他们捏出给前主事僧的金子模样来。

这些僧人事先谁也没有想到李德裕会亮出这么一手。于是，作证的僧人捏出的金块模样自然不可能是一个样子，而是什么样子的都有，他们串通一气作伪证诬陷前主事僧的事，也就水落石出了。

通过这个故事，我们不禁佩服李德裕的智慧。实际上，在这个故事中，李德裕已经运用到了博弈论中的囚徒困境理论，达到帮助自己破案的目的。

1950年，担任斯坦福大学客座教授的数学家图克，为了更形象地说明博弈过程，他用两个犯罪嫌疑人的故事构造了一个博弈模型，即囚徒困境模型：

警方在一宗盗窃杀人案的侦破过程中抓到两个犯罪嫌疑人。但是，他们矢口否认曾经杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点东西。警察缺乏足够的证据指证他们所犯下的罪行，如果罪犯中至少一人供认罪行，就能确认罪名成立。

于是警方将两人隔离，以防止他们串供或结成攻守同盟，并分别跟他们讲清了他们的处境和面临的选择：如果他们两人中有一人认罪，则坦白者立即释放而另一人将判8年徒刑；如果两人都坦白认罪，则他们将各被判5年监禁；当然若两人都拒不认罪，因警察手上缺乏证据，则他们会被处以较轻的偷盗罪各判1年徒刑。

那么，两个罪犯会怎样选择呢？

囚徒到底应该选择哪一项策略才能将自己个人的刑期缩至最短呢？两名囚徒由于隔绝监禁，并不知道对方的选择；即使他们能交谈，也未必能够尽信对方不会反口。

在困境中任何一名理性的囚徒都会作出如此选择：

若对方选择抵赖，自己选择背叛，会让自己获释，所以会选择背叛；若对方选择背叛，自己也要背叛，才能得到较低的刑期，所以还是选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑5年。

这就是博弈论中经典的囚徒困境，可用表5—1表示。

囚徒困境是博弈论的非零和博弈中具有代表性的例子，反映了个人最佳选择并非团体最佳选择。虽然困境本身只属于模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

囚徒困境假定每个参与者都是利己的，即都寻求最大的自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己的意愿选择策略。

以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果会比两人背叛对方、判刑5年的情况好。但根据以上假设，两人均为理性个人，且只追求个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作高，总体利益较合作低，这就是困境所在。

囚徒困境的主旨是，囚徒们虽然可以彼此合作、坚不吐实，为全体带来最佳利益，但在信息不明的情况下，会以为出卖同伙可为自己带来利益。

单次发生的囚徒困境，和多次重复的囚徒困境结果不一样。在重复的囚徒困境中，博弈反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能会被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。