第一篇 “为己利他”行为机理与行为协调
第一章 博弈困境何以如此普遍:主流理论的解释缺陷
【导读】 根据纳什非合作博弈理论,博弈各方从个体理性出发,以最大最小化的原则采取策略,往往会陷入囚徒困境。但实际出现的囚徒困境要比理论所表明的要少得多,这说明现实生活中互动的人们之间存在着较强的协调性。为此,众多学者都对现实中的协调机制展开了分析,迄今为止,分析的思路主要有:直接进行沟通的显性信息交流、遵循习俗和惯例的隐性信息交流、存在外部选择机制的隐性惩罚、依赖法律及第三者监督的显性制约,等等。这几种方法在一定程度上提高了博弈双方行为的协调性,从而增进了合作的可能性,却不能从根本上说明和解决问题。
第一节 引言
经济学的根本研究对象是人的行为以及由行为互动构成的社会经济现象,因而行为机理也就是经济学的微观分析基石。那么,现代主流经济学又是如何研究人类行为的呢?新古典经济学分析的是孤立状态下的经济人行为,而博弈论则关注人与人之间的互动行为。那么,现代主流经济学的这种分析思维合理吗?事实上,根据主流博弈理论,每个博弈方都从自己的个体理性出发,根据避免风险的个体最大最小化原则进行策略和行动选择,从而达到一种具有内敛性的纳什均衡。显然,正是以这种纯粹的个体理性为“圭臬”的行动,其结果往往就会陷入真正的“理性的自负”(哈耶克语),这明显体现在哈丁所讲的“公地悲剧”[1]和纳什均衡潜含的“囚徒困境”以及奥尔森提出的“集体行动的难题”之类的结论上。
然而,这些推理结论给现代主流经济学带来了两大困境。(1)“囚徒困境”表明,长期以来经济学家所信奉的“私恶即公益”教条是错误的。因此,正如E.奥斯特罗姆指出的,“囚徒困境表明的个人理性策略导致集体非理性的悖论,对理性的人类能够取得理想的结果这一基本的信念似乎构成了挑战”[2]。(2)囚徒困境在现实中出现的概率明显会比主流博弈论在理论上所推导出的要少得多:无论是在目前大量的行为实验中还是日常的现实生活中,搭便车的情形要远远低于标准经济理论所显示的,人们也不会像标准经济理论所假设的那样随时准备剥削社会或其他个体。[3]正因如此,基于标准经济学模型得出的公地悲剧和囚徒困境之类结论就遇到了现实问题意识的严重挑战。
其实,奥斯特罗姆以及其他一些博弈论专家、实验经济学家等都已经从多方面对人类行为做了探讨,进而提出了一系列增进博弈协调的理论的、现实的机制。不过,迄今为止的研究大多是在主流博弈思维框架下进行的,主要是引入了信息、惩罚等影响个体最大化效用的考虑因素。例如,Falk等就通过实验来证实非正式制裁和信息交流有助于提高公共资源的使用。因此,这些新进展并没有从根本上解决现代主流经济学所面临的困境,以致标准的经济模型仍然是建立在经济人假说的基础上,现代主流经济学依然偏重于如何防止机会主义对个人利益的损害而非探究如何促进更好的行为协调和互惠合作。为此,Falk等人就提出了这样一些问题:为什么一个理性而自私的个体愿意牺牲一些金钱来惩罚其他受试者的行为?为什么这些金钱最大化的受试者愿意遵循一些廉价交流而减少自身的占用水平?更为一般的问题是,为什么理性选择概念在一些场合是正确的而在另一些场合则是错误的?[4]因此,本章首先就此做一简要的梳理和分析。
第二节 非合作博弈中的个体理性悖论
主流博弈理论暗含了个人理性和集体理性之间的矛盾和冲突的普遍性,它实际上反映出,现代主流经济学所信奉的那种个人和集体利益之间天然和谐一致的观点是有问题的。因此,早在20世纪60年代,谢林就指出,“在冲突不可避免、决策和动机看似理性的情况下,‘理性’行为不是一个放之四海而皆准的有利条件”[5]。为了说明这一点,我们举几种基本的博弈类型加以说明。
一 囚徒博弈
我们来看经典的囚徒博弈(Prisoner’s Game),它描述了两个囚徒在面临警察提供的两种激励合约下理性选择的集体后果:基于个体理性形成的最终博弈均衡是大家都不愿要的。囚徒博弈反映了体现个体理性与集体理性之间的冲突关系:每个博弈方都从自身利益最大化出发选择行为,结果却既没有实现两人总体的最大利益,也没有真正实现自身的个体最大利益。囚徒博弈自塔克提出后就引发了大量的相关研究,并在社会经济领域建立起了很多版本,如公共品的供给不足、集体行动的困境、公地的悲剧等。因此,囚徒博弈是一类博弈的总称,体现了普遍存在的社会关系,既包括国际上国与国之间的贸易、市场上厂商之间的竞争等经济行为,也包括重大国际国内政治问题,如军扩和裁军,等等。显然,囚徒博弈没有帕累托最优纳什均衡却存在帕累托劣解纳什均衡,因为至少有一种结果使所有人都比纳什均衡时获得更高收益。表现在现实生活中,只要存在多数抱怨的现象,也就意味着出现囚徒困境了。例如,在团队生产、卡特尔组织等中,我们常会抱怨搭便车现象;在公共资源的使用中,常会出现资源浪费和无效率的现象;等等。
一般地,囚徒博弈可以写成表1—1所示矩阵形式,其中,存在两个基本条件:CK>AK,DK>BK,AK>DK;其中,K=1或2。因此,背信就是个体理性的选择,从而实现(背信,背信)均衡;但显然,(合作,合作)比(背信,背信)均衡对所有人来说都是更优的。该类型博弈的问题在于,借助于何种机制可以促使人们选择合作,从而跳出囚徒困境?一个基本思路就是,通过政策或宪政设计改变支付矩阵,从而将囚徒困境转换成信任博弈,使得共同结果也成为纳什均衡。[6]
表1—1 囚徒博弈
【例1】 教育减负问题。目前中国社会经常会反复地出现要求为中小学生减负的呼声,因为中小学生基于升学压力而已经陷入了恶性竞争的循环之中却没有提高真正的能力,因而这也是一个囚徒困境。实际上,只要高等教育资源是分等次的和稀缺的,并且高等学校入学的基本标准体现的是应试能力,那么,就必然会存在进入高等学校以及进入名牌大学的竞争;同时,只要中等教育资源是分等次的和稀缺的,并且中学入学的基本标准体现的也是应试能力,那么,也就必然会存在进入中学以及进入重点中学的竞争。以此类推,初中、小学乃至幼儿园都存在激烈的竞争现象,因为在应试教育的压力下,每个父母都希望自己的小孩能够升入更高一级或更好的小学、中学以及大学,从而也就会迫使小孩接受越来越多的学习负担。正因如此,尽管“减负”的呼声不断,情况却没有根本改变,相反有恶化的趋势。为什么呢?当然,如果通过竞争能够丰富学生之知识的话,这种竞争式学习非但没有坏处,反而可以促进整个民族和社会的进步;但问题在于,目前的学习都是为了应试的需要,以致这种灌输性教育磨灭了学生的创造性,这已为绝大多数人所认识。显然,只要应试教育的大环境没有改观,各个家长的收益结构没有发生变化,那么就无法真正实现学生的“减负”。因此,我们现在的中小学教育的主要问题不是减负问题,而是教育的内容以及与此相适应的教育机制问题。这样,我们就可以勾画出表1—2所示博弈矩阵:
表1—2 应试教育下的“减负博弈”
【例2】 目前,很多家电行业已经进入寡头垄断的市场结构,寡头垄断厂商常常发现自己处于一种囚徒困境。像囚徒一样,各厂商都有一种降价与“背叛”它的竞争者的冲动。虽然合作很吸引人,但各个厂商都担心如果自己坚持合作原则不降价,而它的竞争者则率先降价,就会夺取市场的大半份额,但结果却是事与愿违。例如,厂商A和厂商B达成协议,共同保持价格不变。如果两厂商都遵守协议,则各拥有10%的市场份额;如果两厂商都不遵守协议,则会两败俱伤,各拥有2%的市场份额;另外,如果一个厂商不遵守协议而另一个厂商遵守协议,不遵守的这个厂商就拥有15%的市场份额,而另一个将只拥有1%的市场份额。显然,在表1—3所示博弈矩阵中,如果他们都能同意遵守,那么他们的市场份额总额最大。但是不管厂商A怎么选择,厂商B不遵守总是优选方案。同样,厂商A不遵守也总是优选方案,所以厂商B必须担心要是遵守,他就会被利用。经营者不能满足这种不公开串通带来的稍高利润,而是宁愿进行攻击性竞争,试图获得大部分市场,结果两败俱伤。
表1—3 卡特尔博弈
二 性别博弈
我们来看一类性别博弈(Game of Sexes’ Battle),它描述了一对恋人或夫妻之间的矛盾,尽管他们都有自利的效用目标,但如果需要的话,都愿意牺牲自己的喜好来满足对方。性别博弈也反映了一类追求合作而利益分配不对称的博弈总称,如男主外女主内的社会分工问题、等级制的国际分工秩序,等等,所谓的相对比较优势也对应了这种情形。显然,性别博弈具有这样两个特点:(1)任一纳什均衡都是帕累托有效的,每一方的最大化策略都是与对方保持一致;(2)先行动者往往可以获得更大收益,因而谁先行动是至关重要的。例如,同一行业内的两家公司选择行业标准就是一个性别博弈,先行者往往拥有制定标准的实质权力。
一般地,性别博弈可以写成表1—4所示博弈矩阵形式,其中,存在三个基本条件:CK>AK,BK>DK,CK>BK;其中,K=1或2。因此,跟随对方是个体的理性选择,均衡就是(C1,B2)和(B1,C2);同时,这两个均衡下每一个博弈方的收益是不同的。该类型博弈的问题在于,存在何种机制确保参与方在存在两个纳什均衡的情况下进行一致行动呢?其利益分配又如何显得更为公平?一个基本思路就是形成长期合作的惯例,或者存在一些协调大家行动的信号;同时,需要存在一种收入再分配机制,否则将会产生收入差距以及社会等级制。
表1—4 性别博弈
【例1】 电话断线问题。这是一个经常发生在我们身边的例子,当你与一个朋友,特别是与一个恋人通电话的时候,由于某种原因电话可能会突然中断,此时你就面临一个博弈的问题:如果你重新给对方打电话,而他又在尝试给你打电话,那么结果就是忙音而不通;如果你不给对方打电话,而对方也如此,那么也不能通电话。博弈矩阵如表1—5所示。显然,这里也存在协调博弈问题:只有双方找到一个协调他们的行动的方法时,才可以达到均衡解;一般地,这就需要形成社会惯例或行为规则,事实上,不论是主叫方再打还是被叫方回电,只要存在某种规定或默契,那么就可以实现行为的协调。
表1—5 电话断线回叫博弈
【例2】 学术偏至问题。我们同样可用性别博弈来说明中国经济学人对现代西方主流经济学的模仿,以及女性经济学人对男性创设的现代主流经济学的模仿。首先,为了获得合作收益,中国经济学与西方经济学、女性经济学与男性经济学之间必须保持规范和术语上的一致性;其次,西方经济学或男性经济学是学术标准的创设者,从而获得更大的收益。性别博弈的纳什均衡就具有这样两大特点:(1)双方必须合作才能实现更大利益;(2)任何一方先行动就可以取得更大收益。事实上,现代主流经济学是西方男性率先展开行动而建立了基于西方男性文化心理的理论体系,并由此创设了有利于西方男性的学术评价体系;给定这种情况下,中国经济学人和女性经济学家要最大化自身收益就只能遵循西方男性创设的现代主流经济学,而在此均衡下中国人和女性获得的收益要低于西方人和男性。博弈矩阵如表1—6所示。这反映在这种学术制度下女性经济学家所显示出来的贡献要远低于男性,从而造成现代经济学队伍中的性别失衡,而且,也造成了现代主流经济学的偏至性。事实上,尽管美国的主流社会学试图在实证的基础上构建“科学”的社会学,但是,美国黑人社会学界对之却持极力批判的态度,认为美国社会学实际上是白人社会学者的产品,他们不了解并扭曲了黑人社会的形象,从而仅仅是“白人社会学”。
表1—6 规则制定博弈
三 斗鸡博弈
我们来看一种常见的斗鸡博弈(Chicken Game),它首先源自进化生物学的分析,因而也往往将斗鸡博弈称为鹰鸽博弈。斗鸡博弈也反映了大量的社会经济现象,如国际政治、经济关系的博弈,行业进入的博弈,乃至街头的械斗,都是如此。因此,斗鸡博弈也是一类重要的博弈类型,该博弈的特征是:(1)没有稳定的占优均衡,一方勇敢,另一方就要采取懦弱策略;(2)谁表现强硬谁就占有优势,两方为了获得更多个人利益而首先会表现出强硬的态度,而弱势者最终会认清形势而屈服;(3)相互之间相互逞强的结果,往往会造成两败俱伤,而相互选择退让策略则可以分享共同受益。
一般地,该博弈可以写成表1—7所示矩阵形式,该博弈表明,如果冲突造成的损失大于由此带来的收益,即c>v,那么该博弈就有两个严格纳什均衡(H,H)、(D,D)。该类型博弈的问题在于,参与者采取何种策略能够最大化自身的收益?同时,选择鹰策略所获得的利益是否能够长期维持?在很大程度上,鹰策略将导致冲突的不断升级,从而最终损害双方利益。因此,该博弈协调的基本思路在于,存在一个宪政设计来对鹰策略进行抑制,通过改变鹰策略的收益结构来影响它的行为。
表1—7 斗鸡博弈
【例1】 冲突对抗问题。我们可以分析20世纪60年代的古巴导弹危机:1962年赫鲁晓夫偷偷地将导弹运送到古巴以近距离对付美国,但苏联这一行动被美国的U-2飞机侦察到了,于是美国就派遣了航空母舰等,并结集登陆部队对古巴进行军事封锁,美苏战争一触即发。此时,美苏都有两种选择:苏联面临着的选择是坚持在古巴部署导弹还是撤回导弹,美国面临着的选择则是容忍苏联的挑衅行为还是采取强硬措施,当时的情形可用表1—8所示博弈矩阵表示。当然,由于当时的美国实力更为强大,因而它坚持了强硬策略;在这种情况下苏联不得不做出让步,把导弹撤了回来,因为这总比爆发战争好。不过,为了给苏联一个台阶下,美国也象征性地从土耳其撤回了一些导弹。这是一个最终达成满意结果的例子,但在现实生活中大量存在的往往是陷入恶性循环的例子。例如,在冷战时期的武器竞赛就是如此,结果苏联和美国在相互竞争中都消耗了自己的力量,最后还导致了苏联的垮台。再如,在伊拉克战争中,美伊都采取强硬立场,最后是伊拉克政府倒台,而美国从此也陷入困境。
表1—8 古巴导弹危机博弈
【例2】 自设困境现象。在斗鸡博弈中,博弈方要获得有利于自己的均衡,往往要发出一种可信的威胁;而其中一个重要的途径就是:博弈方可以通过限制自己的选择集而改变对手的最优选择,其典型例子就是项羽的破釜沉舟的故事。在巨鹿之战中,当时反秦武装赵王歇及张耳被秦将王离率20万人围困巨鹿,秦将章邯率军20万屯于巨鹿南数里的棘原以供粮秣,而齐、燕等各路反秦武装已达陈余营旁但皆不敢战;此时,项羽派英布、蒲将军率军2万渡过漳水切断了章邯与王离的联系,自己则率领全部楚军渡过河水,并下令全军破釜沉舟,每人携带三日口粮,以示决一死战之心。结果,楚军奋勇死战、以一当十,大败章邯军,章邯也率军20万请降。这里的破釜沉舟就是设定一个置之死地而后生的处境,同时,也为他人设置了一个可信的威胁。博弈矩阵如表1—9所示。
表1—9 破釜沉舟博弈
四 跟随博弈
我们来看跟随博弈(Following Game)。斗鸡博弈往往体现了力量、信息和地位之间的博弈,它会产生有利于强者的效果;为此,在斗鸡博弈中,每一方都努力装扮成强势一方,都力图采用强硬或先发制人的手段。这样,鹰战略会逐渐侵蚀鸽战略,并很可能导致斗争不断升级,这在对抗式的人类社会中非常常见。显然,当鹰战略具有优势并成为其他人模仿的对象时,就出现了跟随现象。跟随策略衍生出的一个重要现象就是主流化现象,如英语的普及、QWERTY键盘的流行、电子产品的标准化、政策的中间化、衣着的潮流化、论文的标准化、学术的主流化,等等。因此,跟随博弈也是一类博弈的总称,其主要特征是:模仿多数是有利的,从而呈现出一元化趋势,并陷入马尔库塞所谓的“单向度”状态。
一般地,该博弈可以写成如表1—10所示矩阵形式:显然,如果v>c,那么该博弈有唯一的严格纳什均衡(M,M),因而主流化战略是演化稳定的。该类型博弈的问题在于,如何突破主流化带来的路径锁定效应?一个基本思路就是,要在制度上保证自由竞争和自由交流,从而促进社会、政治、经济和思想的多元化,这些都是现代社会面临的问题。
表1—10 跟随博弈
【例1】 民主决策问题。跟随博弈潜在的一个重要现象就是:现实生活中多数对少数的“民主”剥削以及相应的多数暴政现象。就多数的民主暴政现象而言,可以从一个流行的笑话中得到理解:由于机构精简,一个5人的办公室中要裁减2人,于是他们开会进行讨论决定精简对象,但因为碍于情面,开会时大家都不好意思提名裁减的人,于是只有一个劲地喝水,最后有两个人终于憋不住而去了洗手间,在他们回来以后,没有上洗手间的3人向他们宣布,经3人一致同意上洗手间的2人下岗。就多数对少数的“民主”剥削而言,则可以从我们周围大量的歧视现象中获得切身的感受,加里·贝克尔就证明,团体A对团体B实行有效歧视的必要条件是B是经济上的少数,充分条件是B是数量上的少数;而充分必要的条件则是:和B数量上的多数相比,它更是经济上的少数。[7]关于这一点,我们也可以分析一下:为何大多数国家都在积极加入WTO,而那些没有加入者则会被边缘化?事实上,当前的国际组织往往都是发达国家主导的,从而存在收益分配的不对称,存在发达国家对发展中国家进行资本剥削、体制压迫的事实;尽管如此,一些发展中国家的领导人(如马来西亚的前总理马哈蒂尔)往往只是口头上不时发表一些过激的言论,而实际上却在积极采取种种优惠措施吸引外资,并努力加入各种世界组织。其博弈矩阵可用表1—11表示。
表1—11 “入世”博弈
【例2】 “傲慢的主流”现象。由于多数人通过简单多数规则可以掌握更大比例的资源,因而为了维护其不对称的收益,这些多数人就会极力排斥其他少数人,从而产生了“傲慢的主流”现象。事实上,在竞争的社会中,经济歧视往往都与经济上的少数有关,政治上的歧视则与政治上的少数有关。例如,在欧美国家,白人无论在经济上还是政治上都占多数,从而常常会出现“傲慢的白人”现象,他们宁可封闭起来也不与周围其他种族的人交流。我们学术圈中也出现了“傲慢的主流”现象:那些所谓的主流经济学人往往自视甚高,对非主流的挑战往往表现出一副不屑一顾的样子。例如,目前中国马克思主义经济学就试图向西方主流经济学发起挑战或对话,但现代主流经济学就很少理会;一些学者则试图沟通两者关系,却往往遭到两个阵营的共同抵制。同样,尽管新老制度经济学在方法和理论方面都存在问题,但两者的差异并不如人们想象的那样尖锐:两者都从不同的角度探讨了制度与制度变迁,两者都遇到了类似的困难;不过,卢瑟福等发动的“架桥”运动在两个阵营却遇到了截然不同的态度:老制度经济学阵营的反应较为积极主动,但新制度经济学家则反应冷淡。究其原因,无论是西方主流经济学在当前中国社会还是新制度经济学在国外,其都处于有利的生存环境和现实地位:占据了各种资源的主流经济学不愿与人分享目前的利益,因而会持极力排斥和打压的态度。一般地,这种现象可以用表1—12所示博弈矩阵表示:博弈的最终结果就是(漠视,争鸣),即只有非主流不断地向主流挑战,而主流却一直高高在上。
表1—12 傲慢的主流
五 智猪博弈
我们来看一下智猪博弈(Game of Boxed Pigs),它体现了跟随博弈的基本特征,描述了一个大猪和小猪抢食的情形,其中,小猪跟随大猪是最佳策略。显然,尽管大猪是强势者,但小猪却可以占尽大猪的便宜。智猪博弈又展示了另一类博弈的基本特征:少数往往可以搭多数的便车,从而出现了少数剥削多数的现象。显然,智猪博弈是对很多社会经济现象的概括。例如,社会中处于统治地位的总是少数,大国在国际事务中承担了更大比例的责任,少数富人承担了大部分税收。事实上,累进制的税收往往会使得一部分的劳动收益向另一部分人转移,这就意味着一些努力工作的人和不工作的人的得到与付出并不相称。当然,小猪的搭便车行为也会引起大猪的不满,尤其当大猪拥有巨大的权力的时候,它就会对小猪进行处罚。
一般地,在表1—13所示智猪博弈矩阵中,C2>A2,D2>B2,且,C1>A1,B2>C1。显然,(按,等待)是纳什均衡。该类型博弈的问题在于,如何减少搭便车现象以防止集体行动的解体?一个基本思路是:采取选择性激励措施,从而降低搭便车者的收益并提高其他行动者的积极性;同时,强者应该采取自我克制的措施,主动转移一部分利益给弱势者。
表1—13 智猪博弈
【例1】 费用分担问题。智猪博弈在现实生活中的一个重要表现就是:少数对多数的剥削以及搭便车现象,从而埋下冲突和矛盾。例如,在OPEC组织中,那些产油大国往往会充当大猪的角色,如沙特就希望所有的成员国都能节制石油产量以维持高价格,而当一些小国偷偷地增加石油产量时,沙特往往大度地削减自己的产量,这也是OPEC组织能够长期稳定的原因;但是,这种收益不对称也会引发冲突,如当时伊拉克出兵科威特很大程度上就是对科威特偷采石油的不满。我们也可以举一些公共品投资为例:那些大集团往往会承担更大的责任。例如,在城市和省区之间,接头的公路的修理往往是发达省市实施的,其博弈矩阵如表1—14所示:小城市最佳的策略是不提供公共品。
表1—14 修路博弈
【例2】 集体行动困境。休谟早在《人性论》中就观察到:两个邻人可以同意排除他们所共有的一片草地中的积水,因为他们容易相互了解对方的心思,而且,每个人必然看到,他不执行自己任务的直接后果就是把整个计划抛弃了。但是,要使一千个人同意那样一种行动,却是很困难的,而且的确是不可能的;他们对于那样一个复杂的计划难以同心一致,至于执行那个计划就更加困难了,因为个人都在找寻借口,想使自己省却麻烦和开支,而把全部负担加在他人身上。后来,奥尔森对此做了进一步的发展而提出了有关集体行动的逻辑理论:一般来说,小集团比大集团更容易组织起集体行动,这些小集团不用强制或任何集体物品以外的正面的诱因就会给自己提供集体产品。这是因为在一个很小的集团中,由于成员数目很小,每个成员可以得到总收益的相当大的比重;因此,只要这些小集团中的每个成员,或至少其中的一个成员,发现他从集体物品中获得的个人收益超过了提供一定量的集体物品的总成本,即使这些成员必须承担提供集体物品的所有成本,集体物品也可以通过集体成员自发、自利的行为提供。然而,即使在最小的集团里,集体物品的提供往往也不会达到最优水平,这是因为集体物品具有外部性:一个成员只能获得他支出成本而带来的部分收益,因而必然在达到对集团整体来说是最优数量之前就停止支付了,而其从他人那里免费得到的集体物品则会进一步降低他自己支付成本来提供该物品的动力。一般而言,集团越大,它提供的集体物品的数量就会越低于最优数量。
当然,在由大小或对集体物品兴趣相差悬殊的成员组成的集团中,这种低于最优水平或低效率的倾向相对不那么严重。因此,在成员的“规模”不等或对集体物品带来的收益份额不等的集体中,集体物品最有可能被提供。但是,由于某成员对集体物品的兴趣越大,其能获得的集体物品带来的收益的份额也越大,因而他可能承担的成本比例将更高,其分担提供集体物品负担的份额与其收益相比往往是不成比例的;而小成员所占的份额较小,也就缺乏激励来提供额外的集体物品。这意味着,对于具有共同利益的小集团,存在少数“剥削”多数的倾向。为此,奥尔森将非市场的集团分为三种类型:一是特权集团,其每个成员或至少其中的某个人受到激励提供集体物品,即使他得承担全部成本,因而该集团不需任何组织或协调;二是中间集团,即没有一个成员获得的收益份额足以使他有动力单独提供集体物品,但成员数量也没有大到成员间彼此注意不到其他人是否在帮助提供集体物品,在这种集体中就需要组织和协调;三是对应市场完全竞争的原子式的潜在集团,其特点是,其成员不会受到其他成员帮助或不帮助的影响,因此,潜在集团中的某一个体不能为任何集团努力做多少贡献,而且他也没有激励去做贡献,一般地,大集团也可被称为“潜在集团”。
六 确信博弈
我们来看一类确信博弈(Assurance Game),它描述了博弈参与者之间的动机和信心状况:如果相信大多数人会选择合作策略,那么,参加合作社生产就是最佳的;但如果相信很多人会选择单干策略,那么个体式经营则更佳。也就是说,参与者如何行动的决策依赖于他关于其他人如何行动的信念,只有相信其他人也会选择合作时才会合作,但人们应付这一不确定的范式往往会导致次优的结果。确信博弈也是对诸多社会现象的反应,许多被认为是囚徒困境的博弈其实都是此类的协调博弈:不仅体现在合作社生产、公共品投资、集体行动、企业集聚等上,也体现在共同面对银行危机、经济危机以及合作社的维持等上。因此,确信博弈体现了一类重要的博弈,有两个基本特征:(1)它注重参与者之间共同动机的协调,通过协调可以获得更高的收益;(2)如果缺乏动机的协调,那么低收益的均衡则是风险占优的。
一般地,在表1—15所示博弈矩阵中:如果两人都选择参加集体活动,那么就可以获得收益(x,x),这对两人都是得益占优或帕累托占优的;相反,如果两者都选择独立经营,尽管收益只有(y,y),但这却是“保险”的,是风险占优的。其中,x>y。该类型博弈的问题在于,如何树立参与者的信心,使他更愿意选择集体行动而不是单干,从而可以实现帕累托优化?一个基本思路就是进行产权界定或者强化互动者之间的博弈次数和频率,促使风险占优向收益占优的转变。
表1—15 确信博弈
【例1】 合作生产问题。我们可以分析一下卢梭在《论人类不平等的起源和基础》一书中所提供的有关猎鹿的寓言故事:假如一群人要捕捉一只鹿,每人都清楚地知道,为了成功他必须忠于职守;但是不巧有一只野兔进入其中一人的力所能及的范围后,他就会毫不犹豫地追击它,而在捕捉到他自己的猎物后,如发现因他这样做让大伙儿的猎物逃遁了,他也很少会把这事放在心上的。[8]现假设:有两个猎人分别堵住藏有一只鹿的前后两个洞口,如果两人都坚守自己的阵地,则必然可以获得洞中所有的鹿,这洞中的鹿为两者共有;但此时恰好两只兔子在他们面前经过,其中,一只鹿的价值为40,而一只兔子的价值为10,此时两人就出现了可选择策略。假设:(1)如果有一个人去追逐兔子,那么,鹿就可能乘机从其守护的洞口逃脱,而追逐兔子者将独自获得一只兔子;此时,追逐兔子者的收益为10,而守护洞口者的收益为0。(2)如果两个猎人都去追逐兔子,那么,洞中之鹿将乘机逃脱;此时,两人各获得一只兔子,两者的收益都为10。显然,该博弈的均衡是:两者都去追逐兔子并获得(10,10)的收益,但这小于两者都守护岗位下可以获得的收益:(20,20)。显然,在表1—16所示博弈矩阵中,如果两者都坚守洞口,那么就可以获得收益(20,20),这对两人都是支付占优或帕累托占优的;如果两者都去追逐兔子,尽管收益只有(10,10),却更为“保险”,符合最大最小原则。
表1—16 猎鹿博弈
【例2】 公共品捐献问题。在表1—17所示博弈矩阵中:捐献的成本是c,如果一个人捐赠的话,该公共品的价值为P,如果两人捐赠的话,其价值为P+s,而不捐赠者得到公共品的(1-e)倍;其中,s反映了捐赠产生的协调效应,而e则体现了公共品对那些不捐赠者的排他效应,1>e>0。显然,当Pe+s>c>P时,(捐赠,捐赠)和(不捐赠,不捐赠)就是两个纳什均衡。显然,西方社会有很多公共品都是依靠私人捐赠来维系的,那么,如何促使均衡从(不捐赠,不捐赠)到(捐赠,捐赠)的演化呢?这也涉及对其他人行为和动机的信心问题。
表1—17 捐赠博弈
七 协调博弈
我们再来看一下协调博弈(Coordination Game),它反映了存在几个纳什均衡的情形,而博弈方需要通过行为协调而在其中选取一个。协调博弈的一种重要类型是分级协调,该博弈的几个纳什均衡可以按帕累托原则分级。因此,这类博弈的主要特征是:一方较高水平的行动实际上增进了另一方采取较高水平行动的边际收益,库珀将这种正反馈的性质称为策略的互补性(Strategic Complementarity)。[9]显然,这类博弈也体现了一类重要的博弈,是对诸多社会现象的反映。例如,饭店里的酒与菜,酒香给人的效用愈大,菜的需求量也多;同样,对一个网站使用得越多,使用它也就越便捷,这也是产品对消费者的束缚效应。进一步地,该类博弈描述了博弈参与者之间的动机和信心状况:如果相信大多数人会选择合作策略,那么,参加合作社生产就是最佳的;但与确信博弈不同的是,单干是一个更差的选择,因而如何形成行动的协调就显得更为重要。
一般地,在表1—18所示博弈矩阵中:如果两人都选择参加集体行为1或集体行动2,就可以分别获得(x,x)或(y,y)的收益,而如果分开行动则一无所获;同时,由于x>y,因而(x,x)相对于(y,y)是支付占优或帕累托占优的。该类型博弈的问题在于,存在何种机制使得人们选择更高收益水平的集体行动?一个基本思路是:增进信息的沟通以协调行动,从而促进“无形的手”真正发挥作用。
表1—18 协调博弈
【例1】 夸特键盘的锁定。QWERTY(夸特)键盘是1873年斯科尔斯(Scholes)设计的一种排法,但QWERTY键盘之所以成为标准的设计并不是因为它比其他可能的设计更为有效,相反,它的设计还是为了减慢打字者的速度。[10]然而,由于偶然的原因,QWERTY键盘却成了现在的流行键盘,究其原因,只要绝大多数打字员被训练成QWERTY键盘的使用者,目前绝大部分制造者就不情愿单独生产DSK键盘;而当绝大多数的键盘都是QWERTY键盘时,绝大多数的打字员又不情愿练习使用DSK键盘。这样相互强化,就使得一个偶然性的结果成为永久不变的定论。例如,在表1—19所示博弈矩阵中:显然,(DSK,DSK)、(QWERTY,QWERTY)是两个纯策略的纳什均衡,而且(QWERTY,QWERTY)均衡对双方来说都是更优的选择;但是,在动态博弈中,由于策略的不确定性导致了键盘的制造和使用之间动态的相互强化的结果发生了变化,相互强化的结果使得最终锁定在(2,2)均衡。
表1—19 键盘演化博弈
【例2】 星期周期的演化。我们知道,在早期的农业社会,农民们只能通过固定的集市才能交换到他们所需要的作物,并且能够卖掉自己的作物。一般地,假设这个集市在远离各个乡村的城市。因此,农夫每次将自己的作物带到集市需要花费一定的交通成本。同时,由于农作物往往是易腐的,带到集市的产品必须被卖掉,否则会损坏。因此,农夫就必须选择去集市的时间,如果那天所有的农夫都去集市,那么商品得到有效配置的可能就越高,从而收益也就越大。这样,经过反复的超博弈,市场就会形成一定的时间长度,这就是星期。星期制度是一个协调均衡,因为没有行为人愿意选择偏离它。博弈矩阵如表1—20所示。
表1—20 星期演化博弈
显然,这种时间长度往往是偶然形成的,这受人们开始聚集在集市相互见面的巧合所影响。因此,在一个给定的社会里最终演化而来的星期的长度可能不是帕累托最优的。事实上,在表1—20所示博弈矩阵中,尽管5天和7天长度的星期劣于9天的星期,但仍可能被演化成为一个均衡的方式。正如瓦萨夫斯基(Varsavsky)在《为什么一周有7天》一文中指出的,今天已经成为事实的7天星期制度并不是一个有效率的星期的长度,而一个9天的连续工作周更加好,因为它比习惯上的星期制度更好地适应了今天生活中的技术上的一些实际情况。事实上,人类早期很多社会的星期周期都不是7天,例如,在秘鲁,印卡斯人建立了10天的星期制度,而在古墨西哥,一个星期有5天。
当然,经济学往往试图通过成本—收益的理性分析来对社会事物加以解释,但实际上,它更可能是其他历史事件造成的,这种历史事件并非是出于经济上的考虑。例如,在漫长的历史演化中,中国就没有形成一个相对固定的星期制度,而是一直在发生演化,直到民国时期才引入欧美体制而将一个星期定为7天。在汉代时,官员们每5天休息一天,这个假日被称为“休沐”(即休息和洗头的日子),这一惯例一直延续到隋代;不过,在汉亡后的分裂时期,在南方发生了一个变化,在南朝的梁代,每10天才有一次常规性假日,这后来被唐代直到元代所继承,被称为“旬假”或“旬休”,一般是每个月的第10天、第20天和最后一天(第29天或第30天);而发展到了明清以后,基本上就没有假日了。关于中国星期制度的变迁,杨联陞认为,这首先与官方要处理的政府职责的持久增长有关,其次可能与皇帝权力的加强有关,皇帝越来越成为官员们的监工。至于星期长度的确定,杨联陞认为,因为汉代的官员循惯例住在衙门而不是家中,洗沐的假日就要让那些家住得比较近的官员们能够在短期内往返一趟。而到了南北朝之后,官员们在他们的官衙值夜成为一种制度,而平时则住在家里,因而5天便回去一次变得没有多大必要了。[11]
第三节 博弈协调的传统分析思路
上面介绍了主流博弈思维中所凸显出的个体理性与集体理性之间的不一致问题,那么,如何突破这种不一致性呢?这就涉及行为的协调问题。哈耶克甚至将行为协调作为福利的标准,因为协调可以实现福利的帕累托优化。当然,协调标准与福利经济学强调帕累托标准还是存在区别:协调的标准并不需要被解释社会在配置选择过程中衡量社会效率的基准;协调并不是指它的成功行动所实现的福祉,而只是指相关行动者之间的契合性。[12]事实上,大量的经验事实和行为实验都反映出,个体之间往往能够进行合作,从而形成有效的集体行动。[13]那么,如何实现行为的协调呢?例如,在公地悲剧中,只要简单地通过一个使用上限的规定就可以避免公地悲剧。不过,这种规定也存在两个问题:(1)信息问题,人们往往不知道对方是否违反了规定;(2)约束问题,即使违反了规定又如何进行惩罚。正因如此,公地悲剧又时有发生。正是这正反两大问题引起了不少博弈论专家对博弈协调机制展开探索。[14]不过,迄今为止,大多数研究都是试图在主流博弈论框架下引入信息沟通和违约惩罚的机制;其中,信息沟通又分为直接进行沟通的显性信息交流和遵循习俗和惯例的隐性信息交流,违约惩罚则分为存在外部选择机制的隐性惩罚和依赖法律及第三者监督的显性制约。这里做简要的归纳分析。
一 信息交流机制
现实生活中博弈协调性不高的最主要原因就在于信息不完全,因此,信息沟通就是树立信心,提高预期的最基本的方面。希克斯在1932年就指出,如果博弈各方完全掌握了对方的偏好等信息,则个人理性就不会造成冲突,因为完全信息保证了对可能冲突的预测,在这种情况下,冲突的发生只能是“谈判不完善的结果”。[15]事实上,参与者之所以不能形成联盟而采取联合行动,在很大程度上正源于他们之间缺乏有效的信息交流。例如,在传统的中央计划体制中,决策的执行、知识的传送和接受等各个环节上都存在这种问题。这意味着,要提高互动的人们之间协调性,关键就在于要建立一种机制以便于各方的协商,特别是形成一种共同的知识。关于共同的知识对协调人们行为的显著作用的一个经典分析就是红帽子白帽子故事(也称脏脸案例)。在这一案例中,一句看似废话的话却根本改变了人的判断信息,它使得“三个人中至少有一人的帽子是红色的”这一信息的特点发生了改变:从“三人都具有的知识”转变为了“三人的共同知识”。而每个人都知道的知识并不必然是共同的知识,因为它不表明每个人都知道他人也知道这个知识。
那么,如何将“都具有的知识”转变为“共同的知识”呢?这就需要建立一种廉价有效的协调机制。一般地,要将默会的知识转变为共同的知识,人类社会中主要存在这样几个基本途径:一是,直接进行沟通的显性信息交流,这种显性信息交流又可分为两个小类:(1)互动者之间的直接沟通,主要是通过对话;(2)依赖第三人的信息交流,中间人对两者行为加以协调、仲裁,这个中间人可以是企业的管理者、政府宏观经济的计划者,也可以是其他仲裁者。二是,基于其他媒介所产生的隐性信息交流,这种隐性信息交流又可分为两个小类:(1)互动方经过多次互动而形成一种预期、习惯乃至惯例,这种预期的形成往往是基于共同生活背景以及互动的认同之上,也就是说,基于共同社会背景的默会知识容易成为“共同的知识”;(2)通过编码的方式将默会知识转变为明示知识,以及通过立法的形式将非正式的规则、惯例确认为正式的法律制度,这就需要对默会知识进行整理、编码(无论是由个人、企业还是政府来进行)以及法制的完善。
事实上,在很多场合中,人们都能够基于各种机制进行不同程度的信息交流,从而使得最后的结果要比标准博弈论的囚徒困境更优。而且,这也已经为很多行为实验所证实。例如,Farrell就强调,廉价对话(Cheap Talk)能够在自然垄断行业的潜在进入者之间实现部分协调,廉价对话也可以有助于在对称的混合策略均衡中实现非对称的协调。[16]关于信息交流在博弈协调中的作用,也可以参见Moreno和Wooders[17]、Crawford[18]以及Chew[19]等人的分析。
1.直接进行沟通的显性信息交流机制
针对那些具有帕累托改进的正和博弈,特别是对那些具有收益等级的协调博弈而言,通过信息沟通有助于取得更大的收益支付,这已经为很多实验所证实。例如,E.奥斯特罗姆和她的同事做了模拟公地环境的一个实验:发给8名学生25张代用券,在2小时的实验结束后可以用来换取现金;这些学生也可以用这些代用券以匿名方式通过电脑在两个证券市场上选择其中一个进行投资,一个交易市场按照固定的利率返还,一个交易市场按照参与测验的8名学生共同投注证券的多少进行返还:如果仅有少部分证券投注,则返还就多,远高于第一个返还固定利率的市场,但投注越多,返还就越低,直到受试者开始亏损为止。显然,如果每个人都采取克制的措施,就会有很好的回报,但如果他人都克制的同时有人却放纵私欲,那么这个不劳而获者将是最大的受益者。两小时的实验表明,在没有任何信息沟通的情况下,学生们只拿到本应该得到的最高收入的21%。第二次实验则允许学生们在实验进行到一半的时候进行交流,讨论一次他们之间共同面临的问题,之后再进行匿名投注;结果学生们得到的回报激增至可得到最高收入的55%,而不断让他们保持交流则获得的回报可高达73%。而且,如果允许他们进行交流,共同协商对自私自利者的惩治措施时,学生们拿到了原本可以得到最高收入的93%。其实,人类的交流和协商不仅对解决公地悲剧起到极为关键的作用,而且也有利于整个社会福利的改进。例如,阿罗不可能定理就表明,以伯格森、萨缪尔森为代表的福利主义理论正是由于非常缺乏“信息基础”而难以为社会福利做出令人信服的测定。
2.遵循习俗和惯例的隐性信息交流机制
习俗和惯例是增强预期的另一重要机制。事实上,习俗和惯例实际上就是靠自然演进的方式将默会知识转变为共同的知识,从而提高了博弈双方行动的协调性。一些博弈理论家甚至已经倾向于认为,所谓的均衡状态只不过是“惯例”。剖析习俗和惯例对博弈协调的作用,可以从以下两个方面来进行。(1)聚点均衡。聚点(Focal Point)均衡是谢林(Schelling)在1960年首先提出的,[20]后来Roth[21]、Cooper[22]、Van Huyck[23]、Sugden[24]以及Colman[25]等人都对此做了探索。实际上,聚点是人们基于社会习俗和惯例而自发采取的行为所达致的一种均衡,如工人的努力水平和企业主支付的工资之间,夫妻俩周末在足球和芭蕾之间的选择,等等,都是聚点均衡的典型例子。(2)相关均衡。相关均衡是指通过“相关装置”,使博弈方获得更多的信息,从而协调博弈各方的行动。它是奥曼(Aumann)在1974年首先提出的概念,[26]随后,梅森(Myerson)等人做了进一步发展,并发展出了机制设计理论。[27]实际上,相关均衡在现实中就体现为各种市场信号的创造,如某一著名品牌的商品,市场则以高价交易;而毕业于著名学府的学生,企业则愿意以高薪聘用,等等。
二 违约惩罚机制
对合作构成威胁的主要因素是人的有限理性及由此产生的机会主义行为,那么,如何降低行为者的机会主义倾向呢?现代主流经济学关注的就是建立一整套惩罚机制。事实上,惩罚机制在博弈协调中的有效性也为大量的实验所证实。例如,艾克斯罗德通过计算机模拟实验验证的两种有效策略——以牙还牙和冷酷策略——表明,每个人要维护自己的利益不受侵犯,就必须随时准备应付他人可能采取的机会主义行为。一般来说,当信任下降时,人们将越来越不愿意承担风险,会实施更多的自我保护行为以应付别人可能的背叛,但这必然导致交易成本的上升;因此,要改变信任他人可能的风险,就必须有一种社会机制对违反信任原则的人进行制裁,从而使不值得信任的行为付出高昂的代价。例如,管理组织和民法都允许在商业事务中受欺诈的一方进行起诉,并有可能获得实际赔偿和专门用来打击违反信任原则行为的惩罚性损害赔偿。同时,社会上也可以通过非正式的手段来进行制裁,如拒绝与有不良声誉的人进行交易,等等。[28]
在很大程度上,在今天的世界里,打传统战争的那些国家已经不再使用一些特定的策略,如细菌战、核武器、轰炸平民人口集中地区等;而且,现在的国际社会也禁止使用地雷这样的武器。究其原因就在于,经过长期的互动的检验教训,人们逐渐明白,如果他们引入这样的战术,在未来的战争爆发时,与将来战争相应得益的现值将非常低,以至于他们在打眼下战争时放弃使用那些战术要比使用它们更好。正是基于这种思路,目前的国家更倾向于使用更具战略性的武器,做到不战而屈人之兵,这也是相关均衡的运用。譬如,在朝鲜核问题中,朝鲜发展核武器旨在给出一种信号,一旦美国发现了它拥有核武这种信号,那么也就不敢随意入侵了。至于如何建立惩罚机制,主要有两个思路:一是消极的退出机制,不再与机会主义进行交易,这是存在外部选择机制的隐性惩罚机制;二是积极的呼吁机制,通过一定的制度来强迫机会主义改变行为,这是依赖法律及第三者监督的显性制约机制。
1.存在外部选择机制的隐性惩罚机制
消极的惩罚机制就是设立一个外生标准,以对协调收益的底线进行限制:即允许博弈方选择一个肯定的结果,而且这个确定的外部选择项足够高以至于超过了协调博弈中一个策略的收益,那么博弈方就不会选择劣于外部选择的策略。实际上,这也就是给博弈双方对行为互动的最低收益有个预期,从而对博弈各方的行为产生制约;而具有外部选择的博弈中,对外部选择的取舍实质上是对违规方的惩罚,不过它主要是通过以消极的不合作来实施。例如,库珀等人的实验就表明,如果存在外部选择的情况下,如果博弈方拒绝外部选择而选择子博弈,那么有77%的结果是帕累托最优均衡,而只有2%的结果非帕累托最优均衡,这与向前递推是一致的;不过,和向前递推的预计相反的是,在40%的情况下外部选择中选,这反映了A对B缺乏信息,一个社会的机会主义、相对主义越严重,则外部中选的可能性就越大。[29]实际上,现实生活中就存在大量这样的退出机制,如股票市场就是一个很好的退出场所,当人们对公司的业绩预期不佳时,就选择在股市上用脚投票。开放式基金也是如此。显然,现实经验也能表明,一个社会的市场机制越不完善、社会的信任度越低,股票的换手率就越高,换手率意味着退出率,它实际上反映了外部选择中选的概率。根据林毅夫的研究,中国20世纪50年代后期农村合作社之所以失败就是因为缺少这样的一个退出场所,从而对合作社的协调性的下降没有一个必要的限制。[30]
2.依赖法律及第三者监督的显性制约机制
在现实生活中,消极的惩罚机制往往不足以抑制机会主义行为。因此,人们往往采取更为严厉的惩罚方式,通过改变博弈的效用矩阵,可以使合作变得更加有吸引力来进行解决。一般来说,人类社会主要有三种约束类型:(1)自我约束,即自律;(2)对方约束;(3)第三方约束。后两个约束机制也通称为他律,这是传统约束机制分析的主要方面。(1)就对方约束而言,它是指一个人的行为受到行为承受者的反应行为的制约,你如果损害了他人就有可能在将来受到他人的报复;当然,你如果施恩于他人,也有可能会得到回报。在交易中,对方约束的主要方式就是抛弃而不再与对方进行交易,如果由于对方的机会主义而使己方参与交易非但无所获,反而有所损失的话,己方对之的惩罚实质上就是进行外部选择。特别是,如果博弈者之间缺乏直接的信息沟通,每个博弈者就有必要选择某种博弈策略以实现合作解,这就需要借助于对方约束。它在博弈中主要有两种机理,一是“针锋相对”的策略:即一个博弈者在眼前的博弈中采取的是另一个博弈者在上一轮博弈中所用的那种策略;二是“冷酷”策略:即只要其他博弈者采取合作策略,那么,每个博弈者都采取这一策略,并且,随之对其他博弈者在转向合作策略之前的一系列博弈中实施非合作策略的背叛行为进行惩罚。艾克斯罗德的计算机模拟实验证实了这两种策略的有效性。[31](2)就第三方约束(法律约束)而言,它是指行为互动双方外的第三方对两方施加的约束行为,不管哪方违反了规则都要受到它的惩罚。第三方可以是个人,也可以是团体,一般来说第三方必须是中立的、有威信的。随着社会的发展,第三方就越来越多地由国家通过法制来施行。因此,我们一般地将第三方约束称为国家约束或法制约束。事实上,由于任何个体的理性程度都或多或少具有短视性,而基于有限理性的行为互动都或多或少地会陷入囚徒困境,从而就需要引入第三方对当事各方的行为制约。鲍尔斯就比较了两个地区的捕虾人的遭遇:美国罗得岛的捕虾是没有限制的,以致目前近海岸的渔业资源已经枯竭,捕虾人索林如今要将圈套设在离海岸70英里远处;澳大利亚林肯港的捕虾需要获得政府执照,但捕虾人斯宾塞拥有60个圈套所赚的钱比索林800个圈套还要多。[32]
第四节 博弈协调的传统方式之局限性
迄今为止,西方社会对博弈协调的解释以及相应的机制设计都是因循纳什博弈机理而展开的:从个体理性的最大化出发,特别是遵循最大最小化原则,只不过引入了另外的信息和约束这两个因素;相应地,西方社会提出的主张基本上都是基于个人理性做机制设计,使得在满足个人理性的前提下达到集体理性。不可否认,这两种思维和机制设计都在一定程度上提高了博弈双方行为的协调性,从而增进了合作的可能性;但同时,它们也都具有内在的局限性,难以从根本上避免囚徒的困境出现。这里做一说明。
一 就信息交流而言
尽管信息交流与沟通机制成为提高博弈协调性的最重要机理之一,也是一个国家甚至全球发展所要努力的方向,并成为当前社会所重视的信息机制建设的重要内容;但是,即使信息再完备、对称,也难以从根本上保证持久、真正的合作。事实上,无论是体现为对话的显性信息交流,还是体现习俗和惯例共享的隐性信息交流,两者的有效性都存在严格的条件。
首先,就信息沟通而言。信息沟通的有效性首先取决于沟通成本,其条件是:信息传递无成本并且没有约束力,这类博弈通常也被称为廉价对话。但实际上,沟通的成本往往是高昂的,有些行为可能就根本不能沟通。譬如,不同宗教信仰的人、不同意识形态下的人在许多行为上都是对立的,有些至少在短期内是难以协调的,这也是世界上不断爆发冲突的原因;正因如此,有些学者(如亨廷顿、斯宾格勒、汤因比等)甚至预言,今后世界的冲突是文明的冲突。而且,即使在信息沟通有效的情况下,要达成真正的合作也非易事;因为功利主义的社会会滋生出大量的内生交易成本,建立在个体理性(特别是近期、短期的)之上的思维是滋生机会主义的土壤。例如,奥曼就指出,即使博弈方在事前能够进行交流,并且相互口头保证将采取合作的策略,也并不真正保证他们能够遵守自己的诺言。[33]
一般地,我们可以将信息的沟通分为单向沟通和双向沟通。就单向沟通是否有效而言,Farrell认为,它取决于这样两个条件:(1)遵守承诺对传递消息者事实上是最优行动;(2)他预期接受者会相信该信息。而在双向沟通中,Farrell则假定:(1)如果双方的声明构成对第二阶段博弈的一个纯策略纳什均衡,那么每一博弈方将采取他声明的策略;(2)如果对局双方的声明不构成第二阶段博弈的一个纯策略纳什均衡,则每一博弈方的行为就如同从未进行过沟通一样。[34]在随后的文章中,Farrell进一步指出,信息交流并不能确保均衡的有效。[35]同样,Cooper等人的实验表明,在双向沟通中,克服博弈中的协调问题就十分有效:在博弈矩阵的最后11阶段中,90%的结果都是(1000,1000);而且,最后11阶段中所有的声明都是策略2。但是,单向沟通的效果却并不非常明显,只有53%的结果实现了帕累托最优均衡;而且,在单向沟通中,博弈方A中有87%宣布策略2,但他们并不总是遵守承诺,而博弈方B也不采取策略2。[36]当然,双向沟通的效率也是建立在简化的基础上,它没有考虑沟通的成本,而双向沟通的成本实际上要比单向沟通要高得多。
其次,就聚点信号而言。试图依靠信息交流来解决博弈协调问题并不如意,正如凯莫勒所写的:“在一般概念中,协调博弈通过应该很容易被‘解’。这种偏见无论在实践中还是理论上都是错的。在实践中(至少在实验中),交流通常情况下会改进协调,但并不总是有用的,而且交流经常导致低效率。理论上,交流并不是真正的解决办法,因为在许多大型社会活动中,参与者无法全部同时交谈(而大型公共宣言又不被置信),由少数不可互相交谈的参与者构成的简单协调实际上是反映这种大型社会活动的小型简约模型。”[37]为此,谢林等在习惯和惯例的基础上引入了聚点信号的协调机制。在很大程度上,习俗和惯例实际上是靠自然演进的方式将默会知识转化为共同知识,从而转变成为协调人们行动的信号;但是,这种聚点协调机制也存在一些问题,从而无法成为普遍的协调方式。(1)聚点往往并不是明确的,在不同文化下的人们之间进行博弈时尤其如此;(2)聚点往往不是普遍的,只有将习俗和惯例明示化以后才能形成聚点;(3)基于演化的聚点往往可能因“锁定效应”而导向一个低收益水平的纳什均衡,如历史上低效率的制度就普遍且长期存在。也就是说,我们不否认聚点对人类行为的引导,但如果希望更好地探究引导人类协调和合作的机制,又必须对人类社会中的聚点做更进一步的辨析。
二 就惩罚机制而言
尽管惩罚也是提高博弈协调的重要机制之一,并为现代社会广泛采用;但是,这种机制也不是充分有效的,这一方面涉及惩罚的成本问题,另一方面更重要的是对违规识别。实际上,在人类社会中,约束机制针对的主要是那些重大的反社会现象,而对经济学所推崇的那种对他人利益持冷淡态度的人之行为是无能为力的。事实上,无论是体现为退出的消极惩罚还是呼吁的积极惩罚,它们的有效性也都受到严格的条件制约。消极的退出惩罚方式的弱点在于:它往往会造成“集体行动的困境”。例如,美国在无限制的“华尔街用脚投票法则”的支配下,造成了行为的短期和近视化。而更明显、也可能更有力的惩罚方式则是积极的惩罚,它的条件恰与上面的相反:要求没有外部选择项,也就是说,要求增加退出成本,从而使得“以牙还牙”的惩罚性威胁能够构成“子博弈完美均衡”,这也就是麦克洛伊德的“退出成本”理论。[38]
首先,就对方约束而言。对方约束的有效性一般取决于两个因素。(1)受到行为互动双方的机会主义和有限理性的影响:一般来说,信息越不完全,机会主义倾向越大,有限理性程度越低,对方约束的有效性也就越差。(2)对方制约的程度,这主要与行为互动双方的力量对比有关:如果行为互动双方的力量是不对等的,那么力量大者为其行为承担的损失风险就很小,因此,他就缺乏限制自己行为的约束力。可见,即使是信息较为完全的,机会主义也较弱,如果存在力量的不对等,也会造成对方约束的失效。一般来说,行为互动双方的力量对比越大,对方约束的有效性就越差。此外,有效的对方约束还取决于双方的互动频率,只有在频率较高的互动中,未来收益对现在而言才是足够重要的,以致形成稳定的合作关系。
其次,就第三方面约束(国家约束或法律约束)而言。第三方约束的有效性主要在于:通过改变博弈者的收益结构来影响博弈结果;如果某方不履行契约,那么国家机关就会对之进行惩罚,这种惩罚是如此之大以致合作成为最好的选择策略。然而,第三方约束的有效性也取决于这样两个因素:(1)第三方的公正性和权威性。权威性主要是指它的法理性,其关键是被约束者的认同程度;一个实施社会规范的机构或政府,如果缺乏合法性,那么它执行这一功能的基础必然是脆弱的,会遭到行为互动双方或明或暗的反对。(2)第三方的威权性。威权性是指国家机关执行其命令的强制性,这与监督双方所花的成本和实施约束所花的成本有关。显然,如果国家政府的法理基础不是非常牢固的话,它维持社会秩序的能力,就往往要借助于它的威权性;而如果国家的威权性不够强,实施约束所花的成本必然很高,从而会导致措施的失效。这有两方面的原因:(1)行为施加方就会采取其他手段来规避或对抗国家的约束,(2)行为承受方则会转而求助于其他的报复方式。而且,须指出的是,尽管第三方约束具有规模经济和减少交易费用的好处,但第三方约束的施行必然会由于不可避免地实施统一和强制性规则而导致“一致性损失”,而这种损失是无形的,也是巨大的。
第五节 结语
主流博弈论继承了新古典经济学的基本思维:每个人在条件允许的情况下都抓住一切机会实现自己的效用最大化,这种行为的出发点是非合作性的。事实上,正是由于主流博弈理论单纯地将两个个体理性联合起来分析集体行动,从而就得出了“囚徒困境”这一普遍性结论。而且,根据后向归纳的逻辑,即使存在重复博弈的情形,只要重复博弈的次数是有限的,唯一的纳什均衡就是自博弈完美均衡,博弈的每一方都会采取不合作的背信行为。显然,囚徒困境反映了这样两点:(1)基于个体理性行动的结果并没有实现个人效用最大化的目的,因而基于主流博弈思维进行行动并不是理想的结果;(2)人们的日常生活结果往往比主流博弈理论推导的结果更好,因而主流博弈思维也并不难解释现实行为。正因如此,从“囚徒困境”被发明开始,非合作的博弈理论就成为经济学家的眼中钉。
尤其是,许多博弈有多个纳什均衡,而关于理性行动的纯数学理论却绝不可能完全找出多个均衡中哪个会出现。正如谢林所说,“恰如人们无法靠纯粹的正规推演来证明某个笑话必定是好笑的一样,人们同样不可能在没有实证证据的情况下推断在一个策略非零和博弈中参与者如何认知”[39]。也就是说,即使纳什均衡体现了博弈方如何进行博弈的相容预测,但也并不意味着它一定有个很好的预测结局。那么,日常生活中的人们究竟是如何行为以及如何确定多重纳什均衡的现实解呢?一般地,博弈的可能结局往往要依赖更多的信息,如信息的沟通、社会的习惯、共同的背景、法律规章的约束、外部选择的存在等,这就涉及现实生活中互动的人们之间的协调机制问题。
迄今为止,主流博弈论家主要通过引入信息机制和惩罚机制等来探究博弈互动的协调机制,一方面试图对现实中的合作现象进行解释,另一方面也试图缓和囚徒困境对现代主流经济学信条的冲击。实际上,大量的证据也显示,在博弈参与者之间没有信息交流、没有制裁的可能存在的标准公共资源博弈中,无效的滥用资源就会成为一个明显的规律;但是,如果存在信息交流和非正式的制裁时,占用的行为就变得更加有效。然而,迄今为止,经济学所揭示的这几种协调机制还存在明显的不足:不仅难以从根本上说明现实行为与博弈理论之间所存在的明显差异,而且也难以成为协调人类行为的基础机制。那么,如何解释这些社会合作现象、从而夯实博弈机制呢?这就涉及人类行为的动机和表达方式这一根本性因素,而人类行为的动机和表达方式又与其社会性有关。
[1] Hardin G.,“The Tragedy of the Commons”,Science,Vol.162,1968,pp.1243-1248.
[2] E.奥斯特罗姆:《公共事物的治理之道》,余逊达、陈旭东译,上海三联书店2000年版,第15页。
[3] Dawes R.M.& Thaler R.H.,“Cooperation”,Journal of Economic Perspectives,Vol.2,No.3,1988,pp.187-197;Stephan M.,“A Survey of Economic Theories and Field Evidence on Pro-Social Behavior”,in:Frey B.S.& Stutzer A.(eds.),Economics and Psychology:A Promising New Field,Cambridge,MA:MIT Press,2007,pp.51-88.
[4] Falk A.,Fehr E.& Fischbacher U.,“Appropriating the Commons:a Theoretical Explanation”,in:Ostrom E.,Dietz T.,Dolsak N.,Stern p.,Stonich S.& Weber E.(eds.),The Drama of the Commons,Washington DC:National Academy Press,2002,pp.157-191.
[5] 谢林:《冲突的战略》,赵华等译,华夏出版社2006年版,第15页。
[6] 鲍尔斯:《微观经济学:行为,制度和演化》,江艇等译,中国人民大学出版社2006年版,第32页。
[7] 贝克尔:《人类行为的经济分析》,王业宇等译,上海三联书店、上海人民出版社1995年版,第25—35页。
[8] 卢梭:《论人类不平等的起源和基础》,高煜译,广西师范大学出版社2002年版,第109页。
[9] 库珀:《协调博弈——互补性与宏观经济学》,张军等译,中国人民大学出版社2001年版,第Ⅸ页。
[10] 事实上,由于早期的打字机总是卡住,因而QWERTY排法的目的就是使最常用的字母之间的距离最大化;到了1904年纽约雷明顿公司已经大规模生产这一排法的打字机,从而使这一排法成为标准。然而,今天的电子打字机和文字处理器已经不存在子键卡位问题,而且,一些新的排法已经出现。例如,A.Dvorak发明的DSK(德瓦克)式键盘从人类学的角度上讲要比QWERTY键盘更合理;即使考虑到训练费用,20世纪40年代美国海军的实验也表明,由于DSK效率高,受训后的打字员十天的工作就可以弥补训练费用。
[11] 杨联陞:《中国制度史研究》,江苏人民出版社1998年版,第19—20页。
[12] 科兹纳:《市场过程的含义》,冯兴元等译,中国社会科学出版社2012年版,第205页。
[13] Ostrom E.,Governing the Commons:The Evolution of Institutions for Collective Action,Cambridge:Cambridge University Press,1990;Ostrom E.,Gardner R.& Walker J.M.,Rules,Games,& Common-Pool Resources,Ann Arbor:University of Michigan Press,1994.
[14] Farrell J.& Saloner G.,“Coordination Through Committees and Markets”,The Rand Journal of Economics,Vol.19,No.2,1988,pp.235-252;Christodoulou G.,Koutsoupias E.& Nanavati A.,“Coordination mechanisms”,in:Proceedings of the 31st Annual International Colloquium on Automata,Languages,and Programming (ICALP),Volume 3142 of Lecture Notes in Computer Science,2004,pp.345-357;Crawford V.P.& Haller H.,“Learning How to Cooperate:Oimal Play in Repeated Coordination Games”,Econometrica,Vol.58,No.3,1990,pp.571-595.
[15] 莱昂斯、Y.瓦罗法基斯:《博弈论、寡头垄断与讨价还价》,载J.D.海主编《微观经济学前沿问题》,王询等译,中国税务出版社、北京腾图电子出版社2000年版,第134页。
[16] Farrell J.,“Cheap Talk,Coordination & Entry”,Rand Journal of Economics,Vol.18,No.1,1987,pp.34-39.
[17] Moreno D.& Wooders J.,“An Experimental Study of Communication and Coordination in Noncooperative Games”,Games and Economic Behavior,Vol.24,1998,pp.47-76.
[18] Crawford V.,“A Survey of Experiments on Communication via Cheap Talk”,Journal of Economic Theory,Vol.78,1998,pp.286-298.
[19] Chwe M.,“Communication and Coordination in Social Networks”,The Review of Economic Studies,Vol.67,No.1,2000,pp.1-16.
[20] Schelling T.C.,The Strategy of Conflict,Cambridge,MA:Harvard University Press,1960.
[21] Roth A.E.& Murnighan K.J.,“The Role of Information in Bargaining:An Experimental Study”,Econometrica,Seember,Vol.50,No.5,1982,pp.1123-1142.
[22] Cooper R.W.,Dejong D.V.,Forsythe R.& Ross T.W.,“Selection Criteria in Coordination Games”,American Economic Review,Vol.80,No.1,1990,pp.218-233.
[23] Van Huyck J.B.,Battalio R.C.& Beil R.O.,“Tacit Coordination Games,Strategic Uncertainty,and Coordination Failure”,American Economic Review,Vol.80,No.1,1990,pp.234-248.
[24] Mehta J.,Starmer C.& Sugden R.,“The Nature of Salience:An Experimental Investigation of Pure Coordination Games”,American Economic Review,Vol.84,No.3,1994,pp.658-673.
[25] Colman A.M.,“Salience and Focusing in Pure Coordination Games”,Journal of Economic Methodology,Vol.4,No.1,1997,pp.61-81.
[26] Aumann,“Subjectivity and Correlation in Randomized Strategies”,Journal of Mathematical Economics,Vol.1,1974,pp.67-96.
[27] Myerson R.B.,“Acceable and Predominant Correlated Equilibriam”,International Journal of Game Theory,Vol.15,1986,pp.133-154.
[28] 泰勒、克雷默:《信任向何处去》,载克雷默、泰勒主编《组织中的信任》,管兵等译,中国城市出版社2003年版,第5页。
[29] Cooper R.,Delong D.V.,Forsythe R.& Ross T.W.,“Communication in Coordination Games”,Quarterly Journal of Economics,Vol.107,1992,pp.218-233.
[30] 林毅夫:《制度、技术与中国农业发展》,上海三联书店、上海人民出版社1994年版,第28页。
[31] 艾克斯罗德:《对策中的制胜之道:合作的演化》,吴坚忠译,上海人民出版社1996年版。
[32] 鲍尔斯:《微观经济学:行为,制度和演化》,江艇等译,中国人民大学出版社2006年版,第94—95页。
[33] Aumann R.J.,Nash Equilibria are Not Self-enforcing,Mimeo,Hebrew University of Jerusalem,1989.
[34] Farrell J.,“Cheap Talk,Coordination,and Entry”,Rand Journal of Economics,Vol.18,1987,pp.34-39.
[35] Farrell J.,“Communication,Coordination and Nash Equilibrium”,Economics Letters,Vol.27,1988,pp.209-214.
[36] Cooper R.,Delong D.V.,Forsythe R.& Ross T.W.,“Communication in Coordination Games”,Quarterly Journal of Economics,Vol.107,1992,pp.218-233.
[37] 凯莫勒:《行为博弈:对策略互动的实验研究》,贺京同等译,中国人民大学出版社2006年版,第348页。
[38] Macleod M.,“Equity,Efficiency,and Incentives in Cooperative Teams”,Advances in the Economic Analysis of Participatory and Labour Managed Firms,Vol.3,No.54,1988,pp.5-23.
[39] Schelling T.C.,The Strategy of Conflict. Cambridge,MA:Harvard University Press,1960,p.164.