第三章 一场游戏一场梦——博弈中的经济学
两个嫌疑人为什么都自愿坐牢?
李德裕是晚唐时期著名的政治家,唐敬宗时,李德裕任浙西观察使。在浙西期间,曾经处理了一桩棘手的案子。
当地甘露寺的主事僧状告前主事私吞寺里的钱。这位主事不仅拿出了交割文书为凭,还有一帮僧人为其作证。前主事僧大呼冤枉,却又拿不出被冤枉的证据。案子到了李德裕之手,李德裕便觉得可疑。
有人私下告诉李德裕说,那些交割文书是假的,其实并没有什么金子被私吞了,只是众僧不满前主事僧,故而串通一气诬陷他罢了,只是这个案子被他们搞得人证俱全,要想为前主事僧申冤很困难。
李德裕把作证的僧人全部叫来,问他们是不是都看见交给前主事僧的金子了,众僧回答说都看见了。李德裕便将他们一个个分开,然后每人交给一些软黄泥,让他们捏出给前主事僧的金子模样来。
这些僧人事先谁也没有想到李德裕会亮出这么一手。于是,作证的僧人捏出的金块模样自然不可能是一个样子,而是什么样子的都有,他们串通一气作伪证诬陷前主事僧的事,也就水落石出了。
通过这个故事,我们不禁佩服李德裕的智慧。实际上,在这个故事中,李德裕已经运用到了博弈论中的囚徒困境理论,达到帮助自己破案的目的。
1950年,担任斯坦福大学客座教授的数学家图克,为了更形象地说明博弈过程,他用两个犯罪嫌疑人的故事构造了一个博弈模型,即囚徒困境模型:
警方在一宗盗窃杀人案的侦破过程中抓到两个犯罪嫌疑人。但是,他们矢口否认曾经杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点东西。警察缺乏足够的证据指证他们所犯下的罪行,如果罪犯中至少一人供认罪行,就能确认罪名成立。
于是警方将两人隔离,以防止他们串供或结成攻守同盟,并分别跟他们讲清了他们的处境和面临的选择:如果他们两人中有一人认罪,则坦白者立即释放而另一人将判8年徒刑;如果两人都坦白认罪,则他们将各被判5年监禁;当然若两人都拒不认罪,因警察手上缺乏证据,则他们会被处以较轻的偷盗罪各判1年徒刑。
那么,两个罪犯会怎样选择呢?
囚徒到底应该选择哪一项策略才能将自己个人的刑期缩至最短呢?两名囚徒由于隔绝监禁,并不知道对方的选择;即使他们能交谈,也未必能够尽信对方不会反口。
在困境中任何一名理性的囚徒都会作出如此选择:
若对方选择抵赖,自己选择背叛,会让自己获释,所以会选择背叛;若对方选择背叛,自己也要背叛,才能得到较低的刑期,所以还是选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑5年。
这就是博弈论中经典的囚徒困境,可用表5—1表示。
囚徒困境是博弈论的非零和博弈中具有代表性的例子,反映了个人最佳选择并非团体最佳选择。虽然困境本身只属于模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
囚徒困境假定每个参与者都是利己的,即都寻求最大的自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己的意愿选择策略。
以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑1年,总体利益更高,结果会比两人背叛对方、判刑5年的情况好。但根据以上假设,两人均为理性个人,且只追求个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作高,总体利益较合作低,这就是困境所在。
囚徒困境的主旨是,囚徒们虽然可以彼此合作、坚不吐实,为全体带来最佳利益,但在信息不明的情况下,会以为出卖同伙可为自己带来利益。
单次发生的囚徒困境,和多次重复的囚徒困境结果不一样。在重复的囚徒困境中,博弈反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能会被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。