第3章 囚徒的困境
电脑学会了协同合作
我学会帮助他人,而并不期待他感恩戴德:因为我可以预见,有一天他会以实际行动报答我,同时期待别人也依样画葫芦,这样才能维持与我或他人之间的良好互助关系。所以,在我帮助他以后,他因我的所作所为而欠下我一份人情,因为预见到欠债不还会带来严重后果,所以他日后肯定要履行自己的职责。
——大卫·休谟,《人性论》(A Treatise of Human Nature,1740)
在意大利歌剧作曲家普契尼的歌剧《托斯卡》(Tosca)中,女主角面临一个可怕的两难抉择。她的爱人卡瓦拉多西已经被警长斯卡皮亚判了死刑,但是斯卡皮亚提出和她做笔交易。如果托斯卡愿意和他睡一次,他就会饶她的爱人一命,让执行枪决的士兵行刑时使用空弹壳。托斯卡决定欺骗斯卡皮亚,假装答应他的要求,等到他发出让士兵使用空弹壳的指令,她就用匕首将他刺死。她真的这样做了,但是等她发现斯卡皮亚同样选择欺骗她时,已经为时太晚。开枪的士兵根本就没有使用空弹壳,卡瓦拉多西饮弹而死,托斯卡横刀自尽,三个人最终都死于非命。
尽管他们没有用这种方式表述,但托斯卡和斯卡皮亚两个人其实都在进行一场博弈,实际上这也是所有博弈论中最著名的一个。这个数学上难解的流派,在生物学和经济学之间架起了一座奇怪的桥梁。这个博弈论对近年来一个最令人激动的科学发现极为重要:那就是理解人们为什么会彼此友好相处。此外,托斯卡和斯卡皮亚两个人都按照博弈论所预言的方式完成了这场博弈,尽管给双方都带来了灾难性的后果。这到底是怎么回事呢?
这个博弈论叫作囚徒困境(prisoner's dilemma),无论在哪里,只要私人利益和公共利益之间发生了冲突,这种博弈就会起作用。如果托斯卡和斯卡皮亚两个人都信守诺言达成这场交易,那么两个人都会从中受益:托斯卡可以救下爱人的性命,斯卡皮亚则可以如愿和她上床。但是如果托斯卡或者斯卡皮亚欺骗了对方,让对方信守诺言,而自己则违背承诺,那么作为个体的话自己就能得到更多的利益:托斯卡能救下自己的爱人并保全自己的贞操,而斯卡皮亚则既能享受桃花运又能除掉自己的眼中钉。
囚徒困境为我们呈现了一个鲜明的例子,告诉我们怎样在自私的人之间实现合作——这种合作不受禁忌、道德或伦理规则的制约。个体怎样才能受私利的驱使而为更大的公共利益服务?这场博弈之所以被称为囚徒困境,是因为用来解释它的最常见的故事描述了两个犯人,每个人面临的选择都是提供证据指证对方,这样就可以减轻自己的刑罚。他们的困境就在于,如果两个人都不指证对方,警察只能以较轻的罪名来给他们两个人定罪,所以如果两个人都三缄其口,那么他们都能从中获益,但是如果其中一个人选择背叛,他自己就能独自获利。
为什么?我们先把囚徒放到一边,而把这当成你和其他伙伴做的一个简单的数学游戏,以分数多少定胜负。如果两个人都合作(三缄其口)的话,每个人都可以得3分(这被称为合作报酬);如果两个人都背叛,每个人只能得1分(称为背叛惩罚)。但是如果其中一个人背叛而另一个人合作,那么合作者1分都拿不到(受骗支付),而背叛的人独得5分(背叛诱惑)。所以,如果你的伙伴背叛你,那么你最好也选择背叛他才能让情况变得对你有利一点。因为这样做的话你至少还能得1分,而不是一无所有。但是如果你的玩伴选择合作,那么你选择背叛照样能得到较好的分数,你能独得5分而不是3分。也就是说,不管你的同伴怎样选择,你选择背叛都会得到更好的结果。但是,因为对方也抱有同样的想法,所以必然的结果就是双方都选择背叛:每人只能得1分,而其实选择合作的话你们每人都能得3分。
不要被你自己的道德感所误导。你们双方在合作中发扬的高尚风格和我们目前的问题毫无关系。我们所追寻的是在一个道德“真空”的情况下逻辑上“最好的”行为,而不是“正确的”事情。那就是选择背叛。选择自私自利才合情合理。
广义上的囚徒困境和山川一样的古老;霍布斯一定也理解这个道理,卢梭更是心知肚明,他在过世之前描述了一个相当复杂的版本,有时也被称为协同博弈(co-ordination),他说了个叫作猎鹿的有名的故事,故事很短,是设想有一群原始人外出打猎,他说:
如果是猎鹿这样的事情,每个人都很清楚,他必须要守住自己的位置,一刻也不能离开,但如果有一只野兔恰好经过其中一个人的身旁,他一转身就可以捉到,我们不用怀疑,他肯定会离开去追那只兔子,而良心上不会有丝毫的不安,而且,等他抓到了兔子,他也不会再去想,正因为他的离开,使得同伴失去了他们的猎物。[1]
为了把卢梭的意思说清楚,让我们假设这个部落里的每个人都出去合围一头鹿。这头鹿躺在一个小树丛里,他们将小树丛团团围住,然后大家一步步往里逼近,直到这头鹿最终被迫从猎人的包围圈里设法出逃,这时候,如果大家都紧守自己的位置,那么最靠近它的猎人必定能杀死这头鹿。但是假设其中一个猎人看到一只野兔,他只要一出手就能抓住这只兔子,但他必须得离开这个包围圈才行。而他刚一离开,包围圈就漏出一个空,那头被围的鹿就从这个空缺里逃了出去。抓住兔子的那个猎人并没有什么错,他有了兔肉可吃,但是因为他的自私,其他人就得付出饿肚子的代价。作为个人做出的正确决定对于集体而言则是错误的,这样就证明了集体合作是个多么没有前途的项目(愤世嫉俗的卢梭这样绝望地说道)。
猎鹿博弈的现代版本是道格拉斯·霍夫施塔特(Douglas Hofstadter)提出的一个博弈,名叫“狼的困境”。20个人坐在一起,每个人都坐在一个小隔间里,手指放在按钮上。10分钟以后,如果大家都能保持现状,那么每个人都能得到1000美元,但是如果其中有人按动了按钮,那么除了按动按钮的那个人会得到100美元,其他人则什么也得不到。如果你聪明的话,那么你就不要按动按钮,最后拿到1000美元走人,但是如果你非常聪明,你就会想,可能会有那么一点点可能,20个人里面难保没有一个傻瓜,会不顾他人而只管自己按下按钮,如果这样的话,你还不如自己提前一步按下按钮,这样才不会吃亏;而如果你非常非常聪明的话,你就会明白20个人里的其他聪明人也会推断出这一点然后按下按钮,所以你最好也按下按钮让大家扯平。恰如囚徒困境一样,真正的逻辑推理将你引向集体的灾难。[2]
虽然这个想法颇有历史,但直到20世纪50年代囚徒困境才被正式作为一个博弈论提出来,提出它的人是梅里尔·弗勒德(Merril Flood)和梅尔文·德雷希尔(Melvin Dresher),他们任职于加利福尼亚州的兰德公司(RAND Corporation),几个月以后,普林斯顿大学的阿尔伯特·塔克(Albert Tucker)首次将其重新表述为一个关于囚徒的小故事。恰如弗勒德和德雷希尔意识到的那样,囚徒困境无处不在。从广义上来说,任何一种情况,只要你受到诱惑去做一件什么事,但同时又意识到如果每个人都这样做的话将会是个大错误,那么这种情况就会构成囚徒困境。(囚徒困境的正式数学定义是,在任何情况下,只要背叛诱惑大于合作报酬、合作报酬大于背叛惩罚、背叛惩罚大于受骗支付,这种情况就构成囚徒困境,尽管如果背叛诱惑足够大的话,这场博弈也会发生改变。)如果人人都值得信赖,不会去干偷车的勾当,那么汽车就无须上锁,而且保险附加费、汽车安全装置之类的东西都可以不要买,这样可以节省很多的时间和金钱,我们所有人都会变得更宽裕一些。但在这样一个诚信的世界里,一个人却可以通过背叛社会契约,窃取一部车辆,而让自己变得更宽裕。同样,如果每个渔夫都很节制,不会下网捕太多的鱼,那么所有的渔夫都会从中获利,但是如果每个渔夫都想捕多少就捕多少,那么表现出节制的渔夫只会白白失去自己的份额,让更自私的渔夫给抢占了。所以我们大家都在为个人主义行为付出集体代价。
很奇怪,热带雨林变成了囚徒困境的产物。在热带雨林里生长的树木将自己的绝大部分精力都放在长成参天大树上,而不去繁殖自己的树种。如果它们能和自己的竞争对手约法三章,共同遵守树木最高不超过10英尺的约定,同时宣布树干不在此例,那么每棵树都会从中获益。但是它们做不到。
将复杂的人生简化成一场愚蠢的博弈,正是这类事情给经济学家带来了坏名声。但是事情的重点并不在于设法将现实生活中遇到的每个问题都塞进一个名叫“囚徒困境”的小盒子里,而是要创造出一个理想的范本,用来表述当集体利益和个人利益发生矛盾时会发生什么情况。然后你可以用这个理想的范本来做实验,直到发现令人惊讶的结果,之后再回到现实世界,看看它能否为现实中发生的事提供一点解决的线索。
这样的事情确实发生在囚徒困境这一博弈上(尽管有些理论家拼死拼活,他们还是不得不被拖回到现实世界中来)。在20世纪60年代,数学家开始近乎疯狂地到处搜寻,想要从囚徒困境带给人的惨淡教训(即背叛是唯一理性的方法)当中找到一条出路。他们反复声称已经找到了一个解决方法,最著名的是1966年奈吉尔·霍华德(Nigel Howard)用博弈对象的目的而不是博弈对象的行动来重新表述这一理论。但是霍华德用来解决这个矛盾的方法,像其他人提出的一样,被证明只是一厢情愿的幻想。考虑到博弈开始时的种种条件,合作变得不合逻辑。
这一结论非常令人不快,并不仅仅因为它的含义是那样毫无道德可言,而且因为它和现实世界里人们的所作所为格格不入。合作是人类社会一个司空见惯的特征,而信任则是社会生活和经济生活的重要基石。难道这是荒谬无理的事?难道我们只有违背自己的本性才能对别人好?那么犯罪要不要付出代价?人们是不是只有在能获得好处的时候才肯坦诚待人?
到了20世纪70年代晚期,囚徒困境开始变成“经济学家在痴迷于个人私利研究方面大错特错”的代名词。如果这场博弈证明对于个人而言在这场困境中唯一理性的事情就是选择自私自利,那么这只能证明这个假设的不充分性。既然人们并不是一成不变地自私自利,那么他们就不可能是受个人私利的驱使,而有可能是受集体利益的驱动。因此,两百年的古典经济学完全建立在自私自利这个假设的基础上,完全是捕风捉影,找错了对象。
让我们先岔开话题来说说博弈论:这个理论诞生于1944年,出自伟大的匈牙利天才约翰·冯·诺依曼(Johnny von Neumann)那妙想迭出却不近人情的头脑。它本来是数学的一个分支,特别适合经济学这一沉闷枯燥的学科的需要。这是因为在博弈论主要关注的领域里,什么是正确的事情取决于其他人在做什么。二加二等于几的正确答案并不取决于周围的环境,但是像买进卖出这类的投资如何决定则完全取决于周围的环境,尤其取决于其他人怎样做决定。即使在这种情况下,可能还是存在一种万全之策,不管其他人怎么做它都照样起作用。但要在现实情况中找到这个策略,例如做出投资决定,可能比登天还难,但这并不是说完美策略不存在。博弈论的重点就在于要在简化版的世界中找到这个策略——找到这个万应良方。它在这一领域以“纳什均衡”而知名,它以普林斯顿大学的数学家约翰·纳什的名字命名(纳什1951年研究出这个理论,后来他长期罹患精神分裂症,痊愈以后,他于1994年因为这一理论荣获诺贝尔奖)。纳什均衡的定义是,每个博弈者的策略是其他博弈者采用策略的最佳回应,并且没有人产生违背他们选定的策略的动机,这时的情况就叫纳什均衡。
比如,我们来看一个例子,这是彼得·哈默斯坦(Peter Hammerstein)和莱因哈特·赛尔顿(Reinhard Selten)发明的博弈游戏。参加游戏的两个人叫康拉德和尼可;他们必须一起分享得到的钱财。康拉德先玩,他决定两人是平分这些钱(公平)还是按比例分成(不公平)。尼可后玩,他决定两人一起分多少钱:是一大笔钱还是一小笔钱。如果康拉德选择不公平分法,那他就可以和尼可九一分成;如果尼可选择分一大笔钱,每个人分到的钱都是选择一小笔钱时分得的金额的10倍。康拉德可以要求自己分到的钱是尼可的9倍,而尼可则毫无办法。如果他决定分一小笔钱,那他在惩罚康拉德的同时也惩罚了自己。所以他甚至连口是心非地威胁要通过分一小笔钱来惩罚康拉德都做不到。纳什均衡就是让康拉德选择不公平分法,让尼可选择分一大笔钱。这对于尼可来说并不是理想的结果,但这是没办法当中最好的办法了。[3]
注意最好的结果并不一定就是通过纳什均衡取得的,远非如此。纳什均衡所处的两个策略常常让游戏的一方或双方遭受痛苦,但是谁也无法采取不同策略来改善自己的境遇。而囚徒困境正是这样一场博弈。当在两个纯洁的伙伴之间玩一场这样的博弈时,那就只有一种纳什均衡存在:两个伙伴都选择背叛。
[1] Rousseau,J.-J.1755/1984,A Discourse on Inequality.Penguin,Harmondsworth.
[2] Hofstadter,D.1985.Metamagical Themas:Questing for the Essence of Mind and Pattern.Basic Books,New York.See also Dennett,D.1995.Darwin's Dangerous Idea.Simon and Schuster,New York.
[3] P.Hammerstein,私人交流。